hyzb.jpg

许宪春:政府微观调查数据开发应用的现状与挑战

作者:
来源:中国证券报·中证网
时间:2017-06-24 11:24

  许宪春:谢谢张院长,尊敬的高培勇所长,尊敬的付志峰校长,各位专家、各位朋友大家好。非常高兴再一次参加中国经济与周期高峰论坛。我算了一下,我大概是在2010年左右参加的,没有参加11次,但绝大部分都参加了,我也特别感谢会议主办方每次都邀请过。

  今天我的题目是中国微观调查数据如何向学术研究开放。今天早晨吃饭的时候我遇到首都经贸大学的刘洪(音)教授,他说学者对统计有两个意见,第一是数据准不准,第二是数据开放不开放,也确实是,政府统计系统包括国家统计局和各个部门拥有不少数据,特别是微观数据、企业数据、住户数据,但由于保密的原因,向学者开放的应该是不够的,学者这边急需用数据,但拿不到数据,那边有数据,由于各种原因拿不出来。所以这是当前政府统计部门面临的问题。我是今年4月份离开统计局,3月份正式宣布不再担任国家统计局副局长,今天我是第一次以清华大学中国经济社会数据研究中心的身份来参加这个会议,以前都是国家统计局副局长来参加这个会议。来之前受宁吉喆局长的委托,如何向学者开放微观数据。后来依托清华大学中国经济社会数据研究中心的团队,来对一个是对国家统计局的微观数据做一下清理,就是各个专业统计的调查制度怎么样,包括资料来源,调查方法,统计指标的计算方法,历史上的变迁等等。同时,我们研究了美国、欧盟、日本,微观数据如何向学术研究开放,特别是像美国五大局的数据,如何向学者开放。

  我们研究知道美国普查局在美国全国设了24个点,也叫数据开发中心,18个点设在高校,其余6个点设在学术研究机构,有一系列的法律制度上的保障,既能够对学术研究开放,同时也对数据进行保密,我们研究之后,提出了一系列的政策建议,并且协助国家统计局制定了开发应用微观数据的一套试行办法,这套办法国家统计局经过常务会议讨论通过,并且在5月24号正式印发了通知,这个通知中,明确国家统计局在清华大学中国经济社会数据研究中心建立一个数据开发平台,将来数据开发平台一旦正式启用,有资格的、符合要求并经过申请批准的学者可以到这个开发中心,利用国家统计局的部分微观数据。一会儿我会介绍。这样就给搭建一个平台,在国家统计局数据拥有者和学术研究者之间搭一个平台,学术研究可以在这个平台进行使用数据,我在下面主要是介绍这个问题。这个虽然和中国经济增长与周期高峰论坛不是很有关,但是我相信所有研究中国经济增长和周期问题的学者可能都离不开数据,特别是官方的大量的微观数据,所以它也和我们的论坛密切相关。

  我要讲的是五个方面,一是政府微观调查数据开发应用的调查意义,二是中国政府微观调查数据开发应用的现状与挑战,三是发达国家政府微观调查数据开发应用的基本经验,四是清华大学中国经济社会数据研究中心关于开发应用政府微观调查数据做的若干准备工作。最后简要介绍一下国家统计局关于逐步开发应用微观调查数据的适应的办法。时间关系,我可能每个部分讲得短一些。

  一、微观调查数据开发应用的重要意义。有四个方面,但我们知道微观调查数据涵盖的信息是非常大的,应该是非常宝贵的经济社会资源,既具有经济社会价值,同时具有重要了学术研究价值,当前政府微观调查数据在保密的前提下,对学术研究开放,使之得到充分的开发应用,发挥它的作用已经成为一种国际趋势,特别是在发达国家,像美国、欧盟、日本已经成为一种趋势,受数据保密性等方面因素的制约,中国政府微观数据的开发应用主要限于政府统计系统内部,主要是汇总一些宏观的数据来进行研究,对学术研究的开放是不够的,从而这些重要的数据资源没有发挥其应有的作用,目前学术研究对政府微观数据需求越来越强烈,政府微观数据开发应用具有重要的意义。

  一是有利于推动学术研究深入发展,形成更多具有原创性和国际影响力的研究成果。政府微观数据具有丰富的信息,但这些信息在政府部门发布的各种汇总层次的宏观数据中没有得到充分体现。学术研究部门拥有开发微观数据充足的人力资源能力和潜力,也具有开发应用这些数据资源的积极性和创造性。在保守数据秘密的前提下,向学术研究开放资源,让学术人员开展深层次的研究和探讨,有利于推动学术研究的发展,形成更多具有原创性和国际影响力的研究成果,提升我们国家的实力。在国际重要的期刊特别是顶级期刊,想发表数据,我了解,很多是用微观数据来进行研究的,所以中国的学者如果在国际的顶级期刊上发表更多的具有原创性的成果。利用开发应用的微观数据是非常重要的。

  二是有利于更好地服务于宏观决策,促进国家治理体系和治理能力的提升和治理体系现代化。学术研究人员通过开发应用政府微观调查数据,可以深度挖掘政府统计部门在宏观汇总数据中缺失的信息。针对于这些信息所隐含的深层次结构性问题,提出更加精准的量化依据和更加到位的政策建议,因为利用了大量的微观数据,利用更加精准的量化研究和更加到位的政策建议可以发挥数据的作用,在宏观决策中的作用,可以促进国家治理能力的提升和治理体系的现代化。

  三是更好地服务于社会公众,促进经济社会健康发展。学术研究成果在社会上进行广泛的传播之后,使得社会公众更加了解数据所反映的深层次的问题,可以让社会公众在各自的领域更加科学、合理的判断经济社会发展状况,推动经济社会健康发展,也有利于推动改进和完善政府统计,提高政府统计的公信力。微观数据开发应用的学者,通过应用能够更加详细的了解政府统计,能够提出更加有针对性的意见和建议,从而有利于改进和完善政府统计。通过对政府微观调查数据的开发应用,学术人员可以更加深入理解政府统计,信任政府统计,维护政府统计的权威性,提高政府统计的公信力。学者通过开发数据,一个是更加详细的了解政府数据,一个是更加深入的理解政府数据,这样便于他们在对政府统计深入了解的基础上能够解读,能够更加相信政府统计,所以有利于提高政府统计的公信力。

  二、中国政府微观调查数据开发应用的现状。应该说政府统计系统也做了不少努力,利用微观数据的汇总数据,为党中央、国务院和各级党委政府以及各个部门判断经济社会发展形势,制定经济社会发展政策和规划提供了大量的的有重要参考价值的依据,为社会公众提供了大量的信息服务。可以说在每个月结束之后,在每个季度、每个年结束之后,对宏观经济形势的准确判断都是在数据发布之后,所以对于判断经济社会形势是非常有用的,政府统计部门也作了大量的工作,不仅是国家统计局,各省统计局以及市县都做了大量的工作。

  政府统计系统也采取合作研究和签订保密协议的方式,允许部分高校和研究机构学者在约定的条件下使用部分的微观调查数据,比如说人口普查数据,在一部分学者中已经在采用。但是由于政府统计系统大部分人员从事的是统计制度方法的究和制定,数据的采集加工和处理,专门从事开发的统计人员是很有限的。有机会的政府统计系统开发这些微观数据的学者也是很有限的,所以政府微观调查数据并没有得到充分的开发应用。】

  政府微观数据开发应用也面临很多挑战:一是法律法规制度上不健全。我们研究发现美国、欧盟、日本在开发微观数据的同时,都是逐步的完善法律法规和制度,既保证数据的开发能够顺利进行,也保证数据的安全,所以法律法规制度是非常重要的。

  二是保密性的挑战,因为政府微观数据包括企业数据和住户数据,企业数据往往涉及到商业秘密,而个人数据往往涉及到个人隐私,统计法规定可以推断出个体信息的数据是不能对外披露的,要进行严格保密。这是政府微观调查数据开发应用面临的最大挑战,又要开发,又要保密,这是一对矛盾,如何有效的解决这些矛盾就很重要了。

  三是人力物力方面的挑战,因为你要想开发政府微观调查数据要做一系列的基础性工作,包括对微观数据进行清理,清理之后便于学者开发应用。历史上各个专业的调查方法、调查制度都发生过变化,你要在开放数据的同时把这些制度方法的变化告诉学者,不然的话学者用的时候可能会用错,会有问题,不知道历史上发生过什么变迁,拿来就用之后就会造成数据的不可比,就会带来问题。

  为了向学术研究开放政府微观调查数据,需要对相应的数据进行脱敏和加密处理,形成可供开发的数据,避免数据在开发应用时泄密事件的发生,现在泄密可是不得了,所以一定要做好数据的脱敏和加密处理。为了向学术研究开放政府微观调查数据,需要对相应的数据进行长期维护,需要对数据开发应用进行系统有效的管理和监督,以使这项工作有序有效进行。

  由于这一系列挑战,大量的政府微观数据远没有得到开发应用,造成宝贵的数据资源的浪费。另一方面,高校和科研机构大量的学术研究人员无法开发应用政府微观调查数据,造成宝贵的人力资源的浪费。政府微观调查数据没有在宏观决策和国家治理中发挥应有的作用,没有在服务于社会公众方面发挥应有的作用,也没有在学术研究中发挥应有的作用。

  三、发达国家政府微观调查数据开发应用的基本经验。基本原则有四条。一是在保守秘密的前提下,尽可能将政府微观调查数据向学术研究开放,发挥这些数据的作用。二是政府微观调查数据的开发应用不得泄露商业秘密和个人隐私。三是对政府微观调查数据开发应用的方式和成果发布做出严格规定。四是要求微观调查数据的开发应用符合政府部门的利益。不能由于开放对国家统计部门造成极大的负面影响,这也是难以持续的。我们对美国、欧盟、日本的数据开发应用中的经验进行系统梳理,梳理之后觉得这四条是最重要的。

  微观数据的主要做法。一是建立完善的法律法规及配套制度。发达国家在微观数据开发应用过程中都是伴随着法律法规和配套制度的建立与完善,对数据开发应用做出明确的规定。二是共建研究机构,这是一种方式,开发政府微观数据方面,有些国家是采用共建研究机构,设置第三方机构的方式。比如政府统计部门、高校或者科研机构共建数据研究中心,这是美国采用的方法,数据研究中心在政府统计部门与学术研究之间架起桥梁,便与对政府微观调查数据的开发、权限、范围和流程进行管理。由第三方,一方是政府,一方是学术研究,当中是平台。三是采用协议方式开发应用数据,这是一些国家普遍采用的方法。采取协议方式对开发应用的保密性、互惠性和适用范围进规范,对开发应用者的行为进行约束。四是采取多种途径提供数据,实现数据合理开发和保密要求的平衡,有很多不同的方式,比如欧盟就有很多方式向学者提供数据,有远程的提供,也有人提供你的磁盘,但是你到期之后必须销毁,或者到期之后返还。这是一些严格的规定。这是国际上发达国家如何开发政府微观调查数据的经验和做法。

  四、清华大学关于政府微观数据开发应用的一些工作。

  一是整理政府微观数据资源清单,把每个专业的报表制度、调查范围、调查方法、数据分类、计算方法、历史上如何变迁做了一个详细的清理,这是国家统计局各业务司的配合下由清华大学数据研究中心来把事情做完。二是整理政府微观调查数据开发应用的国际经验,就是我刚才讲的美国、欧盟、日本,他们是如何开发微观数据的,总结了几条原则和经验。三是就中国政府微观调查数据的开发应用提出政策建议。四是协助国家统计局拟订开发应用微观调查数据试行办法。5月24号国家统计局正式印了开发应用微观数据的试行办法,我下面会简要给大家介绍。

  这个办法规定了数据开发应用的范围,首先哪些专业开发,一个是规模以上工业企业财务状况调查,二是住户收支与生活状况调查,三是人口普查和1%人口抽样调查,现在应用于这三个领域,也是学者最常用的领域,也是政府统计中比较规范、比较完善的一部分。

  开发应用的数据,一是经过抽样后匿名化处理的样本库数据,不是把所有的数据都开放。比如说工业的财务报表上有38万多家,目前在起步阶段不是把38万多家都拿出来,要抽取一部分样本。二是抽样原则和抽样比例由各专业司确定,比如跟工业相关的数据由工业司确定,住户调查数据由住户办来确定,人口普查和人口抽样调查数据由国家统计局的人口司来确定。抽样的比例、抽样的范围会随着实际情况进行调整,如果我们在试点过程中觉得比较完善,没有出现什么问题,有可能更多的来开放这些数据。

  开发应用数据的时间长度,规模以上工业企业财务状况调查是2012年以来的数据,住户收支与生活状况调查数据是2005、2008、2010年的年度数据。人口普查是1%人口城市调查数据是2010年第六次人口普查和2015年1%人口抽样调查数据。

  数据开发应用方式。一个是对象,目前暂定是中华人民共和国与境内具有法人资格的政府部门、高等院校和科研机构。其中高等院校和科研机构应具有一定的资质,不是所有的学校,要规定一个范围,特别是起步阶段,要求比较严格。同时要求以单位名义申请,不接受个人名义申请。

  数据的存储和维护,对开发应用的微观调查数据进行抽样和必要的技术处理,使之无法识别或判断单体统计调查数据的身份。将开发应用的微观调查数据存储于特定的服务器,与存储普查和常规年度数据的服务器进行物理隔离,这是单独一个服务器。国家统计局数据管理中心负责开发应用的微观数据进行信息技术方面的管理和维护。

  开发应用方式。国家统计局和高校以及科研机构共加数据开发中心,设在高校或者科研机构,通过网络终端和国家统计微观数据开发服务器进行连接。网络终端不保存数据,仅设置数据佛问功能,申请者通过审批后,到数据开发中心开发应用微观调查数据。

  流程,首先提出申请,符合条件的申请者,填写指定表格的申请书,包括研究目的、研究计划、预期成果,拟使用的数据,并说明这项研究对微观政策制定和政府统计产生的积极作用,互利性的原则。接受申请,数据开发中心组织专家对提交的申请进行初步评估,国家统计局有关组织业务司和专家进行最终评估。首先是研究中心评估,数据开发中心做评估,然后是国家统计做评估。数据使用是通过最终评估的申请者到数据开发中心通过网络终端访问国家统计局微观数据服务器使用数据。

  监测,申请者在利用微观数据形成研究报告后,需将研究报告提交数据开发中心进行初步评估,初步评估通过的报告需经国家统计局进行最终评估。成果发布,经过最终评估后可公开发布研究成果,并报国家统计局备案,研究成果应注明相关数据来源于国家统计局微观数据开发数据库,并声明研究成果只代表作者观点。一个是你的研究成果一定要说明你应用了国家微观调查数据库,另一方面你要说你的观点是个人观点。组织实施,是在国家统计局各职能部门的管理和协调下做的一些工作。

  数据开发中心负责提供数据开发应用的场所,承担网络维护建设。监督申请者按照协议规定使用数据,协助国家统计局起草数据开发的各项规章制度,聘请专家对数据开发应用申请者和研究结果进行初步评估。国家统计局无偿提供基础数据,数据开发中心作为非盈利性的独立法人,对数据开发应用过程中产生的必要成本予以考虑,也就是说对开发应用的学者要适当收取费用,弥补成本,使得这个数据中心可以持续的进行。

  国家统计局在清华大学中国经济社会数据研究中心设立首个数据开发中心进行试点。这是第一个试点单位,条件成熟后再增设其他数据开发中心,对于运作不力的数据开发中心,国家统计局有权要求限期整改和予以撤销。

  这是目前针对国家统计局微观数据没有得到开发应用,针对学者迫切的希望开放数据这种实际状况,受国家统计局的委托,清华大学中国社会经济社会中心作了一系列准备工作,这项工作得到国家统计局的高度重视和推动,我们中心也在密切的配合这项工作,一旦条件成熟,就向学术研究机构开放这些数据,相信这些数据会对学术研究工作有好处,同时一旦成熟了,还可以在全国其他高校设立开发中心,更方便学者在各地开放这些数据。就像美国普查局在美国全国设置了24个点,这样对学术研究和应用数据研究带来非常大的便利,也通过这种研究推动哲学社会科学的发展,推动数据在宏观决策和社会公众应用方面发挥更大的作用,也同时推动政府统计工作的发展。

  我就介绍这些,谢谢大家。

  张连城:我们博士和硕士在一起写学术论文的时候,在创新与不足那样一段里都有那样一句话,由于数据的可获得性较差,本论文有可能在某某某方面存在不足,许局长从国家统计局调到清华大学以后,这种情况可能将来会有所改观。感谢许主任的讲话,谢谢许宪春主任。

中国证券报社版权所有,未经书面授权不得复制或建立镜像 京ICP证010042号
Copyright 2016 China Securities Journal. All Rights Reserved