论坛分类

有了故事，数据才有价值

只看楼主收藏回复

楼主

来源：《中国征信》2016年第9期。

作者：甘犁，美国德州农工大学经济系讲席教授，美国国民经济研究局(NBER)高级研究员，西南财经大学经济与管理研究院院长，中国家庭金融调查与研究中心主任，中国教育部“长江学者”讲座教授，中组部“千人计划”入选者。

数据本身远不是调查研究的最终目的

我们常说，中西方之间的误读往往来自于不够了解，而双方在历史、文化、语言等诸多方面的差异，无疑成为了沟通的障碍。只有数据才能扮演统一的世界语言的角色。

中国学者，尤其是研究社会科学的学者，往往重逻辑、重思辨，习惯引用案例，提出观点。而西方人相对更重数据。置身多元化的世界，很难找到可比性，也不易相互借鉴，因此规模的统计数据就成为了大家讨论的基础，这以后才是思辨的过程。今天，我国经济发展的地域性差异客观存在，用上海、拉萨或者成都的情况来类推导全国的状况都是片面的，统计数据才能够在一定程度上做整体呈现。

可喜的是，以高校为主，全国各地很多团队都在做各个领域的调查统计工作，相信很快就会形成一支浩浩荡荡的社会调查的洪流。大家各有侧重，并行不悖。眼下暨南大学正与我们合作，进行针对就业市场的调查；南京审计大学计划与我们合作，专门针对城乡治理展开调查；北大老龄化调查也取得了很大的成绩；北师大的真实进步调查为公众打开了一个国内生产总值以外的视角，去打量中国家庭的柴米油盐。

那么数据和事实之间是什么关系？通过严密的抽样调查，科学统计得来的数据是对现实的整体把握。学者的责任则是根据这些数据去还原现实故事，搞清事情的来龙去脉，而非列陈一系列的阿拉伯数字。

数据本身远不是调查研究的最终目的。所以，我们的口号是“让中国了解自己，让世界认识中国”，这也是每一个数据“生产者”、数据使用者的使命。大家在不同的层面去探究，并彼此借鉴，分享发掘的快乐。

事实上，直到今天我们还没有公布2015年中国住房空置率的调查报告。因为空置率的数字本身并没有什么意义，我们还在不断地分析它，试图更加充分地理解它，厘清它的社会学与经济学含义。上个月，我在浙大举办的一个学术会议上作了关于土地流转调查的报告，一来是学术交流，二来我是希望聆听业内学者的意见，因为中国土地流转的情况复杂，不同学者的差异化见解能够帮助我们找到那些可能被忽略的问题，丰富研究的内容。

执着于数据绝对值的大小是条歧路

作为一个学术研究机构，只要是以充分的社会调研与严谨科学的评估为前提，我们就有责任公布调研数字。更重要的是，长久以来我们审视数据的视角存在偏差，过于执着其绝对值的大小，而非判断它真正的意义。

2010年中国家庭基尼系数为0.61，这个数字远远高于而后国家统计局公布的0.481，由此引起广泛的争论和质疑。但直至今天，我都认为基尼系数看起来较“高”并非全然坏事，完全没有必要为之大惊失色。

就数据本身而言，此基尼系数非彼基尼系数。在美国、日本、德国等发达国家，其公布的基尼系数往往在0.3左右，看似其收入差距要小很多，但需注意的是这个基尼系数是在转移支付之后得来的。在转移支付和税收调节前，市场初次分配时其基尼系数大致应该在0.5左右。而我国几乎没有转移支付，我们的收入税调节作用也是非常有限的，中产阶层更多地扮演了纳税主体的角色。在这种情况下，较“低”的基尼系数反而说明了市场经济的欠发达程度，偏“高”的基尼系数则在某种程度上肯定了市场分配资源的程度。毋庸置疑，不论东、西部的差异，还是农村、城市的差异；不论教育资源的差异，还是医疗资源的差异，我国的不平衡状况是客观存在的，且显著于西方。而资源分布差异与收入差异往往同时存在，它是市场调节的正常结果。

我们常常纠结，为什么经济转型“转”了这么多年却还是“转”不过去？最后往往把原因推给老百姓不肯花钱，不肯在养老、医疗上花钱。然而，调查后我们发现，近年来我国养老保险、医疗保险的覆盖率大幅增加，基本上做到了人人有医保，百姓对于未来的不确定性正在一天天减少，那么为什么大家还会捂着钱袋子不肯消费呢？事实上，我们只是看到我国总体宏观储蓄率很高，家庭平均储蓄率为30%，然而并非家家户户都是把30%的资产放进了银行，资产排名前5%的家庭或许把80%的收入存进了银行，前20%的家庭存了80%的钱，而后1/3的家庭可能是入不敷出的。他们是没有消费的条件，而非没有消费的动机。所以，这些年来我们千方百计去刺激消费，却收效甚微，原因正在于此，这才是我们应该透过基尼系数读出的内容。

我们国家对于低收入居民的保护更多体现在“低保”上，对于大多数地区人均徘徊在三四百元上下的“低保”水平而言，难怪这部分家庭对于消费“刺激”无感。在此，我列陈一下美国的数据，最贫困的20%的美国家庭平均收入是7500美元，转移支付后达到3万美元(包括社保在内)，因而基尼系数从0.49降到0.39。个人认为，我们应该像大多数国家那样，进行转移支付，进行大规模的二次分配。

两年来，我的团队一直在四川乐山做类似的实验，选择经济条件不是很好的120户家庭，并将其随机分成两部分，一部分作为实验组，家庭每月劳动收入每达到1000块钱，我们就再奖励其300元到500元人民币，另一部分则作为对照组，不提供奖励。然后去观察这些家庭的收入与消费变动情况，结果不只是很多人一拍大腿的“肯定是奖励调动了劳动积极性”那么简单，我的团队有详尽的数据支撑。当然，我们每个月“奖”出去的5万块真金白银均出自项目的科研经费。现在，我们计划把这个项目做大，但是这就意味着团队需要去筹集更多的经费。

长久以来一直有种说法，讲收入差距大了以后会影响社会稳定，并给出了一个所谓“0.4”的警戒线，我认为这种提法全属子虚乌有，因为它没有任何的学术研究、文献做支撑。，但是没有人知道它出自谁之手。事实上，今天大量的实实在在的主流学术研究并没有过分关注收入差异本身，而是不约而同地把目光聚焦在了“机会平等”之上，如就业平等、教育资源平等、医疗资源平等，等等。值得庆幸的是，在我国“机会的平等”具有传统优势——高考制度，它在相当程度上确保了代际流动性。近年来，我国代际流动性有所下降，但是横向比较仍具一定优势。

越来越多的人引用中国家庭金融调查的数据是对我们的信任与认可，但是我并不希望数据只是被简单地引用，而是希望使用者可以通过数据厘清当下我们的生活。比如有人对中国的改革开放政策不满，就搬出了我的基尼系数，而抛弃其真正的社会学、经济学含义，这就是典型的本末倒置、断章取义。

数据量大和信息量大其实是两件事情

大数据带来的信息风暴正在变革我们的生活、工作和思维，大数据开启了一次重大的时代转型。今天，把解决问题推给大数据似乎是一件很是时髦的事情。然而遗憾的是，很多时候那只是我们一厢情愿。因为，数据量大和信息量大其实是两件事情。

百度的数据、阿里巴巴的数据、腾讯的数据，乃至一些交易数据，数据量可以很大，但是变量却往往很少。换句话说，阿里有海量的网上交易数据，百度地图可以即时掌握手机用户的位置，但是这些大数据背后没有故事，它不知道是谁在交易，更不知道交易者的资产结构、家庭结构，不知道他或她的收入情况。人的行为受很多因素影响，但是这些因素在线上是无法找不到的。反过来看，如果我们的家庭信息都可以在线上找到了，那么私密性就没有了，那才是噩梦一场，这就又回到了信息安全的问题。

区别于大数据，我自称我的数据为“厚数据”。只有大数据和厚数据相结合，才能讲出一个完整的故事。有了故事，数据才有价值。因为我们对于问题的分析在于故事发展的脉络，而非仅仅是一个宏观的简单的变量。

例如，一家互联网公司可能在大数据上做得非常成功，因为它有手机位置，并以此判断你在哪里工作、住在哪个区域。但问题在于这些信息是需要核实的，这时候我们的“厚数据”就该登场了。因为，“厚数据”知道这个社区居住多少人，知道这个社区居民的收入状况和资产状况。

为什么“厚数据”需要大数据？因为及时更新是“厚数据”的软肋。不论是两年一次的大调查，还是一个季度一次的小调查，相对而言成本都太高，及时性也满足不了，大数据不断更新的海量数据刚好补足我们的短板。凡事只要双方都有需求，就一定能够结合。

送TA礼物

举报 | 1楼回复

发表回复

发帖请遵守贴吧协议及“七条底线”

推荐热门榜

友情链接