上海人物摄像交流群

有了故事,数据才有价值

只看楼主 收藏 回复
  • - -
楼主


来源:《中国征信》2016年第9期。


作者:甘犁,美国德州农工大学经济系讲席教授,美国国民经济研究局(NBER)高级研究员,西南财经大学经济与管理研究院院长,中国家庭金融调查与研究中心主任,中国教育部“长江学者”讲座教授,中组部“千人计划”入选者。


数据本身远不是调查研究的最终目的


我们常说,中西方之间的误读往往来自于不够了解,而双方在历史、文化、语言等诸多方面的差异,无疑成为了沟通的障碍。只有数据才能扮演统一的世界语言的角色。


中国学者,尤其是研究社会科学的学者,往往重逻辑、重思辨,习惯引用案例,提出观点。而西方人相对更重数据。置身多元化的世界,很难找到可比性,也不易相互借鉴,因此规模的统计数据就成为了大家讨论的基础,这以后才是思辨的过程。今天,我国经济发展的地域性差异客观存在,用上海、拉萨或者成都的情况来类推导全国的状况都是片面的,统计数据才能够在一定程度上做整体呈现。


可喜的是,以高校为主,全国各地很多团队都在做各个领域的调查统计工作,相信很快就会形成一支浩浩荡荡的社会调查的洪流。大家各有侧重,并行不悖。眼下暨南大学正与我们合作,进行针对就业市场的调查;南京审计大学计划与我们合作,专门针对城乡治理展开调查;北大老龄化调查也取得了很大的成绩;北师大的真实进步调查为公众打开了一个国内生产总值以外的视角,去打量中国家庭的柴米油盐。


那么数据和事实之间是什么关系?通过严密的抽样调查,科学统计得来的数据是对现实的整体把握。学者的责任则是根据这些数据去还原现实故事,搞清事情的来龙去脉,而非列陈一系列的阿拉伯数字。


数据本身远不是调查研究的最终目的。所以,我们的口号是“让中国了解自己,让世界认识中国”,这也是每一个数据“生产者”、数据使用者的使命。大家在不同的层面去探究,并彼此借鉴,分享发掘的快乐。


事实上,直到今天我们还没有公布2015年中国住房空置率的调查报告。因为空置率的数字本身并没有什么意义,我们还在不断地分析它,试图更加充分地理解它,厘清它的社会学与经济学含义。上个月,我在浙大举办的一个学术会议上作了关于土地流转调查的报告,一来是学术交流,二来我是希望聆听业内学者的意见,因为中国土地流转的情况复杂,不同学者的差异化见解能够帮助我们找到那些可能被忽略的问题,丰富研究的内容。


执着于数据绝对值的大小是条歧路


作为一个学术研究机构,只要是以充分的社会调研与严谨科学的评估为前提,我们就有责任公布调研数字。更重要的是,长久以来我们审视数据的视角存在偏差,过于执着其绝对值的大小,而非判断它真正的意义。


2010年中国家庭基尼系数为0.61,这个数字远远高于而后国家统计局公布的0.481,由此引起广泛的争论和质疑。但直至今天,我都认为基尼系数看起来较“高”并非全然坏事,完全没有必要为之大惊失色。


就数据本身而言,此基尼系数非彼基尼系数。在美国、日本、德国等发达国家,其公布的基尼系数往往在0.3左右,看似其收入差距要小很多,但需注意的是这个基尼系数是在转移支付之后得来的。在转移支付和税收调节前,市场初次分配时其基尼系数大致应该在0.5左右。而我国几乎没有转移支付,我们的收入税调节作用也是非常有限的,中产阶层更多地扮演了纳税主体的角色。在这种情况下,较“低”的基尼系数反而说明了市场经济的欠发达程度,偏“高”的基尼系数则在某种程度上肯定了市场分配资源的程度。毋庸置疑,不论东、西部的差异,还是农村、城市的差异;不论教育资源的差异,还是医疗资源的差异,我国的不平衡状况是客观存在的,且显著于西方。而资源分布差异与收入差异往往同时存在,它是市场调节的正常结果。


我们常常纠结,为什么经济转型“转”了这么多年却还是“转”不过去?最后往往把原因推给老百姓不肯花钱,不肯在养老、医疗上花钱。然而,调查后我们发现,近年来我国养老保险、医疗保险的覆盖率大幅增加,基本上做到了人人有医保,百姓对于未来的不确定性正在一天天减少,那么为什么大家还会捂着钱袋子不肯消费呢?事实上,我们只是看到我国总体宏观储蓄率很高,家庭平均储蓄率为30%,然而并非家家户户都是把30%的资产放进了银行,资产排名前5%的家庭或许把80%的收入存进了银行,前20%的家庭存了80%的钱,而后1/3的家庭可能是入不敷出的。他们是没有消费的条件,而非没有消费的动机。所以,这些年来我们千方百计去刺激消费,却收效甚微,原因正在于此,这才是我们应该透过基尼系数读出的内容。


我们国家对于低收入居民的保护更多体现在“低保”上,对于大多数地区人均徘徊在三四百元上下的“低保”水平而言,难怪这部分家庭对于消费“刺激”无感。在此,我列陈一下美国的数据,最贫困的20%的美国家庭平均收入是7500美元,转移支付后达到3万美元(包括社保在内),因而基尼系数从0.49降到0.39。个人认为,我们应该像大多数国家那样,进行转移支付,进行大规模的二次分配。


两年来,我的团队一直在四川乐山做类似的实验,选择经济条件不是很好的120户家庭,并将其随机分成两部分,一部分作为实验组,家庭每月劳动收入每达到1000块钱,我们就再奖励其300元到500元人民币,另一部分则作为对照组,不提供奖励。然后去观察这些家庭的收入与消费变动情况,结果不只是很多人一拍大腿的“肯定是奖励调动了劳动积极性”那么简单,我的团队有详尽的数据支撑。当然,我们每个月“奖”出去的5万块真金白银均出自项目的科研经费。现在,我们计划把这个项目做大,但是这就意味着团队需要去筹集更多的经费。


长久以来一直有种说法,讲收入差距大了以后会影响社会稳定,并给出了一个所谓“0.4”的警戒线,我认为这种提法全属子虚乌有,因为它没有任何的学术研究、文献做支撑。,但是没有人知道它出自谁之手。事实上,今天大量的实实在在的主流学术研究并没有过分关注收入差异本身,而是不约而同地把目光聚焦在了“机会平等”之上,如就业平等、教育资源平等、医疗资源平等,等等。值得庆幸的是,在我国“机会的平等”具有传统优势——高考制度,它在相当程度上确保了代际流动性。近年来,我国代际流动性有所下降,但是横向比较仍具一定优势。


越来越多的人引用中国家庭金融调查的数据是对我们的信任与认可,但是我并不希望数据只是被简单地引用,而是希望使用者可以通过数据厘清当下我们的生活。比如有人对中国的改革开放政策不满,就搬出了我的基尼系数,而抛弃其真正的社会学、经济学含义,这就是典型的本末倒置、断章取义。


数据量大和信息量大其实是两件事情


大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。今天,把解决问题推给大数据似乎是一件很是时髦的事情。然而遗憾的是,很多时候那只是我们一厢情愿。因为,数据量大和信息量大其实是两件事情。


百度的数据、阿里巴巴的数据、腾讯的数据,乃至一些交易数据,数据量可以很大,但是变量却往往很少。换句话说,阿里有海量的网上交易数据,百度地图可以即时掌握手机用户的位置,但是这些大数据背后没有故事,它不知道是谁在交易,更不知道交易者的资产结构、家庭结构,不知道他或她的收入情况。人的行为受很多因素影响,但是这些因素在线上是无法找不到的。反过来看,如果我们的家庭信息都可以在线上找到了,那么私密性就没有了,那才是噩梦一场,这就又回到了信息安全的问题。


区别于大数据,我自称我的数据为“厚数据”。只有大数据和厚数据相结合,才能讲出一个完整的故事。有了故事,数据才有价值。因为我们对于问题的分析在于故事发展的脉络,而非仅仅是一个宏观的简单的变量。


例如,一家互联网公司可能在大数据上做得非常成功,因为它有手机位置,并以此判断你在哪里工作、住在哪个区域。但问题在于这些信息是需要核实的,这时候我们的“厚数据”就该登场了。因为,“厚数据”知道这个社区居住多少人,知道这个社区居民的收入状况和资产状况。


为什么“厚数据”需要大数据?因为及时更新是“厚数据”的软肋。不论是两年一次的大调查,还是一个季度一次的小调查,相对而言成本都太高,及时性也满足不了,大数据不断更新的海量数据刚好补足我们的短板。凡事只要双方都有需求,就一定能够结合。


版权声明:中国征信杂志(微信号:zgzxzz)所有注明来源于《中国征信》杂志的文章,请媒体和微信公众号转载时注明出处,否则将追究法律责任。欢迎转发至朋友圈。




举报 | 1楼 回复

友情链接