大数据催生前所未有的开放社会
在今天,大数据已经成为世界各国经济发展和科技创新的前沿,各国*也开始越来越多地应用大数据参与社会治理的方方面面。大数据时代,我们面临的不仅仅是信息技术领域的革命,更是在全球范围启动透明*、加速企业创新、引领社会变革的契机。本刊采访到《大数据》、《数据之巅》的作者涂子沛,请他讲述小数据之历史和大数据的崛起,试图回答我们该如何改变观念来适应时代,信息技术又将怎样“拉动”社会的发展。《投入大数据,笑了自己》一文的作者王安,从美国讲到中国,从技术引入文化,告诉你在大数据的时代,一切皆有可能。而《被数据统治的世界》一文为美国出版的新书HowNumbersRuletheWorld的书评,虽然书名是“数据如何统治世界”,但作者却是在提醒人们,不要被“简单的数字”统治了我们的思维。当不同的观点汇聚,也许才更容易得出结论。
“浓烟滚滚,遮天蔽日,空气质量极端恶化,白天的阳光、夜晚的街灯都无法照亮路面。”
19世纪80年代,蓬勃的钢铁业摧毁了匹兹堡的城市生态环境,昔日美国的“钢铁中心”从此被称为“烟城”和“人间地狱”。20世纪40年代,当地*开始发动大众对匹兹堡的环境指标进行监测,记录了大量真实的数据,从而有力地推动了企业减排。*一手抓经济转型,一手抓污染治理。如今的匹兹堡满眼青翠,成为公认的“北美最适合居住的城市”。可以说,美国历史上第一次大规模的城市调查在匹兹堡展开,绝非偶然。作为世界上最发达的现代化国家,美国在政治、经济、文化、科技等方方面面的崛起,都和数据息息相关、密不可分。
这个真实的故事出自涂子沛2014年5月出版的新书《数据之巅》,在这本书里,涂子沛以时间为线索梳理了美国对于数据的应用步伐,以及人类数据文明的发展进程。他将数据文明系统地划分为初数时代、内战时代、镀金时代、量化时代、抽样时代、开放时代和大数据时代,其中既有小数据的历史也包含大数据的崛起。《数据之巅》不是概念的阐释,也不是应用的罗列,区别于他的第一本书《大数据》,涂子沛此次所定义的“巅峰”有三个维度:一是技术维度,即人类使用数据的巅峰形式是让机器使用数据,通过机器学习实现自动化、智能化,人类社会迈进智能时代;二是政策维度,大数据的建设需要站在巅峰之上的顶层设计,成为“一把手工程”;三是文化维度,登上数据之巅,俯览数据文明的兴起。正如涂子沛在接受经济观察报采访中所强调的,在今天的中国,光有科技的质感还不够,更要有文化的温度。
当西方都在强调大数据的核心就是预测时,涂子沛说,“大数据绝不仅仅是信息技术领域的革命,更是在全球范围启动透明*、加速企业创新、引领社会变革的利器”。大数据如今已经作为一个“新潮”的概念进入人们的视野,但绝大多数讨论仍然围绕技术和应用。作为首个将大数据的讨论引入中国的观察者,当被问及在今天的中国,引入大数据最为关键之处是什么时,涂子沛强调的并非技术,相反,他认为转变观念才至关重要,因为“数据文化是一种行为模式,只要观念能够转变,技术的手段反而是普遍存在的”。而在大数据的应用上,人类的想象力将没有止境。
虽然书中的故事以美国为主体,但很显然,中国才是涂子沛真正的着力点。奥巴马将数据称为“未来的石油”,视其为“国家核心资产”,而中国在大数据的应用上才刚刚起步。我们正在进入一个资本的社会,科技将把我们带往何处?涂子沛的答案是:大数据根本的意义是一个标志,标志我们人类向智能社会转移。而在迈进智能社会的竞争中,数据无疑会成为重中之重。中国的数据文化发展无疑处在后发劣势,但也正因为数据在这个时代大大地充沛了,也就给后发劣势向后发优势的转化提供了可能。在中国*如何应用大数据的现实和未来问题上,涂子沛同样给出了答案。“除了上帝,任何人都必须用数据来说话。”这是涂子沛在2012年7月出版的第一本书《大数据》里的一句话,而今依旧有效。
访谈
问=侯思铭 徐见微 朱天元
答=涂子沛
一个真正公平的社会
首先是个信息社会
问:《数据之巅》是你关于大数据的第二本书,副标题是“大数据革命、现实与未来”,这两本书有什么关系?从历史的角度回顾大数据的发展具有怎样的意义?
答:这两本书其实是承接关系。我的第一本书《大数据》系统地阐述大数据概念和现实,这本新书则更注重历史的角度、文化的角度以及探索未来的发展方向。关于大数据的书目前已经有很多,但主要是从技术角度、商业角度来认识,我认为这样的认识还远远不够,尤其是在中国的环境下。
大数据正在变成一个社会性的话题,我希望它不仅要有科技的质感,还要有文化的温度,我常常举一个深海文化论的类比,如果把国家比作海洋,表面上波涛汹涌的便是经济形势的风云变幻;海面往下一层是政治,政治处于中海,很难变化;深海是文化,是最稳定难变的东西,但它同时也是一切的基矗目前存在的很多经济问题、政治问题,归根结底要到文化上去找原因。
我的第一本书出版后,我在国内不少地方交流、访问,意识到对中国而言,大数据有其特殊性,不能把大数据仅仅看成一个高大上的技术话题、精英话题,而要把它变成一个大众话题和大众思维方式,善于用数据来思考问题、解决问题,中国很缺乏这种数据文化。所以我希望把人类的数据文明梳理一遍,这种梳理,要跳出一谈到大数据就想到商业运用的这种局限性。
问:你想推动建立一种大众数据意识、甚至一种数据文化?
答:对,可以说是数据的意识,也就是把数据不仅应用到工作中、还有日常生活中:用数据说话,用数据管理,用数据决策,用数据创新。文化是一种行为模式,数据应该成为这种大众行为模式中的一种特质,这集中表现为尊重事实、强调精确、推崇理性和逻辑。
问:你认为一切现象都可以量化?诸如民族复兴?
答:准确地说,是一切现象都可以找到量化的方法。量化是科学研究问题重要的手段。只要找到设计出科学的标尺,我们生活世界的各种现象就是可以被测量的,即使抽象的东西,例如生命的价值,爱情的深浅。两个恋爱中的人每天打了多少次电话,一天拥抱过多少次,就能够成为有效的指标去标识感情的状态。而一旦建立一个指标体系和计算模型,就会出来一个测量和计算的结果。
之前有学者提出中华民族复兴完成了62%,所有人都觉得这个数值很可笑,先不谈这个数字是不是符合实际,但如果认为中华民族复兴这样的工作无法去量化,这是对社会科学的本质的缺乏了解。就像科学是没有止境的,所以量化也是没有止境的,即它的准确度可以不断提高。客观事实只能无限逼近,科学工作者的任务是设计一把更精确的尺子,然后用它去测量各种现象,误差永远存在,但不能因为这把尺子还不够准就不用尺子。
数据就是静态的历史
历史就是动态的数据
问:你认为数据给历史的书写提供了新的可能?
答:是的,数据中不仅蕴含着社会发展的规律,也提供着新的历史书写方式。曾经当过美国总统的加菲尔德说过,过去历史学家总是以总体的形式来研究一个国家,只讲述帝王将相和战争的历史,但对于社会中的每个个体的细节及其规律却说不出什么东西。
数据是比语言文字更精确的描述社会事实的工具。当用普查的手段,以数据的形式记录下无数社会现实的时候,平民的历史也被记录下来。而收集的数据越多,对历史的记录就越丰富。随着我们进入大数据时代,人类的所有历史记录,无论是数字、文档、图片,还是音频、视频,都能以数据的形式存在。所以我说,数据就是静态的历史,历史就是动态的数据,历史的碎片,就是游离的数据;历史的迷雾,就是模糊的数据;历史的盲点,就是缺失的数据。
问:加菲尔德好像还有另外一个观点:数据即使不能统治世界,但最少也能表明我们这个社会是如何被统治的。但我们今天好像还没有完全认识清楚这一点。
答:对,这句话表示了加菲尔德所处的时代对数据的认识。他是一个很有意思的人,我称他为美国历史上的数据总统,他对人口普查进行了改造,证明了勾股定理。加菲尔德在工作中认识到数据是知识的载体,数据是对客观世界的记录。从这种记录当中我们就可以总结社会运行的规律,总结规律就有助于预测未来。
我们的问题出在哪里?首先还没有意识到要大规模的去收集数据,然后利用这些数据去研究社会。中国古代的人口普查,或者说叫人口清点,并不是现代意义上的人口普查,它的主要目的是为了服兵役和征税,是为了控制社会,没有大规模的把数据应用优化政策制定、改善社会治理的层面。
其次是对数据的尊重,今天的*决策需要越来越多的数据,但问题是,历史上我们曾经很不尊重数据,在收集数据的过程中经常扭曲数据,这样就贻害无穷。
西方文明的建立,数据是一个重要基点。事实神圣,所以数据也不可侵犯。我们今天可能有了一大堆数据,但发现没法用,历史上积累下的一些数据难辨真伪。
美国的工作做得更细致,例如,美国一百多年前的议会开会的辩论记录都电子化了,新*只要输入一个主题,就可以看到100多年来美国历史上的*对这个政策问题的阐述和讨论,这就是一种政治智慧和政策积累,是数据带来的。
问:在数据积累上,我们是处在后发劣势的,该如何把后发劣势转化为后发优势?
答:其实我们中国今天也有优势,中国是个行政执行力非常强的国家,大数据时代的行政执行力非常关键,因为数据是人为产生的,大数据本质上是个人为的现象,一切人为的现象都需要顶层设计。例如,数据时代要有数据标准,行政执行能力强,就很容易地统一标准。像美国各个州都是互相独立的,统一标准就很难。抓住这些,我们就能有优势。
问:影响这个劣势向优势转化的因素是什么?
答:要看决策者,看大众意没意识到这件事情的重要性。要把大数据放到一个国家战略的高度上衡量。标准的制定应该是自上而下的,自下而上就各定各的标准了。数据最后要整合,不整合就不能产生价值,整合就要标准一致。这是一个关键。
在*应用大数据上
想象力是无限的
问:你会就大数据的相关内容给*官员授课,发现过什么问题?在授课过程中会不会随时调整你的授课策略?
答:确实发现过一些问题,现在的很多高级官员,都是上世纪五六十年代出生的,受到年龄和知识结构的限制,他们对信息技术的前沿掌握不够,但又恰恰是这部分人拥有决策权,所以特别需要改变和推动的就是他们的观念,普及他们对信息技术和大数据的知识。
还有就是信息化的工作没有受到应有的战略重视。前面谈到,大数据标志着人类社会要迈进智能型的社会,在这个关键点上,我认为信息化工作要成为“一把手工程”。以省为单位,现在很多地区分管信息化的都是副省长、甚至常务都不是,但这一级别其实很多工作推不动的,因为信息化很多方面涉及到职能的重组,数据整合涉及到跨部门的合作和职能调整,副省长是做不了这个主的。
在这个问题上,最近情况已经有所改变,原来中国的信息化领导小组是在国务院,而现在成立了**网络安全和信息化领导小组,成为了*的机构,*任组长,这就是信息化成为一把手工程的表现之一。这种改变,还要逐步推广到地方层面。
问:在你的课程中,他们(*官员)最感兴趣的是哪部分?
答:主要是前沿的理论和案例,通过案例知道其他国家是怎么做的,从而能够为中国社会提供借鉴,那些能够改善管理水平、服务质量,直接产生社会效益的案例是最吸引人的,还有就是官员们对信息技术如何影响未来世界的走向也十分关心。
近两年来,*官员对大数据的认识水平明显提高了。很多地方的官员都在探索、推动一些大数据的应用,比如国家统计局就在思考,怎么保证层层上报的统计数据的真实性,除了下面报上来的,还要搜集一些其他源头的数据,因为客观的真实只有一个,所有不同源头得出的数据都仅仅是对这个真实的描述,也只能描述事实的一个方面,那么当其中一个来源的描述与其他来源不符的时候,我们就可以知道这个数据很可能是“伪”数据,即多源头的数据搜集可以证明数据的真实性和可靠性。这叫打造统计工作的“第二轨”。
关于大数据如何引领未来,即未来的走向,我认为大数据标志着我们人类社会向智能社会转移。从数据到信息到知识再到智能,我们处在一个由信息社会向智能社会转型的阶段。
问:那么你认为信息化的两个面:数据开放和信息安全之间该如何平衡?
答:现在很多人认为数据开放和信息安全是一对矛盾,其实两者并不是对立的。数据的开放不一定危及信息的安全。我们既然说数据是资源,是生产资料,就要让它流动起来,而最有效的流动就是开放数据。
关键是要正确、全面的理解开放。开放并不意味着全部的数据要向全世界开放,开放也可以有范围、有层次,即开放是需要规划的。我们可以向一个地区开放,向一个群体开放,向一部分人开放。另一个,也不要一提到开放就等同于免费,因为开放也是有成本的,目前在全世界出现了以美国和英国为首的两种方式,美国的数据开放是免费的,因为他们认为开放取得的收益会远大于付出的成本。而英国则是收费的,收费的理由是,收费才能更好地维护数据的质量。中国也可以去思考自己该走哪条路,我们甚至可能走出第三条路,就是有些收费,有些免费,只要是符合中国国情的、现实的途径就好。
问:你强调开放数据的重要性、甚至在这本书中把开放数据的过程比喻成“土壤”上的“河流”?
答:在强调数据的重要性的时候,有人比喻成石油,有人比喻成矿产,都很形象,但我觉得这还不够,我认为数据是土壤。建设智能社会的重要基础就是数据,比如谷歌推出的无人驾驶汽车,它就是基于大量数据的基础之上;比如说农作物种植的自动灌溉,将传感器埋到土里去测量它的湿度,与空气温度结合来决定要不要浇水,都是数据来驱动的。所以说数据是未来智能社会的土壤,土壤质量好不好,数据是否是真实的,质量高的,都将成为竞争的关键。
另外一点,如果说数据是土壤,那么开放数据就是河流,人类文明是如何兴起的?都是依靠河流,城市也要建在河流的边上。所以在我们迈入新型社会的同时,要在这块土壤上开放数据,这块土壤上的数据文明才会成长。
问:*目前对大数据的应用有哪些成功的实践?
答:有不少好的例子,最近我在浪潮集团了解到,青岛市*使用他们的大数据分析系统,在税收上取得了很明显的成效,他们利用大数据发现了一些企业少交税,因此多收了1.47亿人民币的税收;还有广东省利用大数据查找套车牌,因为我们大量的交通摄像头,车牌是可以识别的,交通部门收集了大量的数据中,有同一辆车出现在不同地区的记录,由于一辆车不可能同时出现在不同的城市,所以出现这种情况的牌照就很可能是套车牌,以此很容易就锁定一些目标重点查。
问:在大数据的应用上,成功的实践有哪些共性是可以推广的?
答:我认为数据上云的做法是成功的前提,是需要推广的,云是大数据的载体。把数据放在云上,数据才可以被*的整合和分析。
举个例子。高速公路的收费站都收集了大量的通车记录,但这些数据都保存在本地,还没有发挥可以发挥的作用,如果我们把一个地区所有收费站的数据都放到同一朵云上,那每一个收费站都可以实时分析和整合其它收费站的数据,试想一下,如果一辆车在行驶过B收费站的时候,B收费站就能够获得A收费站的数据,我们用两站之间的距离除以行驶时间,就可以得到其行驶的速度,知道其是否超速进行实时的计算,对一个路段的超速行为进行实时计算、然后处罚。这种监测在技术并非难题,前提就是数据上“云”。
又例如我们的户籍制度,目前的户籍制度仍旧是个“死”的制度,即数据放在一个地方、是死的,没办法和其他数据整合,但如果*可以把为市民提供公共服务的一些数据放到云上,就可以把所有市民各种各样“活”的记录累积在户籍条目之下,原来单维度的数据就变成了一个矢量的数据,可以无限放大,这种变化所产生的作用就必然是空前的,那么*管理社会、服务社会的能力会空前提高,在对大数据的应用上,想象空间是无限大的。
我们一些地区,对于云在公共服务和企业管理中的应用前景认识还不足。我觉得未来网络服务于人类的主要形式就是云,在通往智能时代的道路上,云应该成为除水、电、气之外的第四公共部门。
问:那么对于*提出加快推进全国中小企业征信系统建设,通过大数据等技术优化中小企业征信资质,你怎么看?
答:中国社会的商业文明不够发达,一个重要的原因就是因为信用体系不够发达。所以加强征信系统的建设是有战略意义的。大数据的时代给我们提供了很多新的解决方案,美国用几十年才把自己的信用体系建立起来,我们今天却可以把这个时间大大的缩短,因为数据在这个时代大大的充沛了,这就是我们提到过的后发优势。
信用正在数据化,即通过收集整合各种各样的数据、然后按一个算法来计算你的信用。不仅有中小企业的商业信用,甚至还可以应用到市民的个人社会信用,比如张家港市,他们就有创新,他们通过租自行车的记录了解你有没有按时还车,以此可以对人们的信用记录做出某种程度上的评估,最终把这些数据变成了社会信用的一部分。
问:你如何看待大数据对财政工作的影响?
答:大数据在财政领域当然也应该会有很大的用武之地,我们刚刚谈到了可以扩大税源,发现偷税漏税,另外一个领域,是资金使用效果的评估。我们现在的一个问题是财政部门虽然管发钱,发完就不管了,掌握不了资金的使用效果,因此就应该在发钱的同时对钱的使用结果做好数据收集,通过模型评估出资金使用的绩效,以此作为下一步拨款的依据,用得好的可以多给,用得不好的少给甚至不给,这可以大幅提高财政资金的使用绩效。
信息技术“拉动”社会进步
问:你提到人类的数据爆炸发生在社交媒体时代,而社交媒体提供的是行为数据,行为数据跟以前的数据相比有何不同?
答:以前的数据是过程数据,它提供一个过程,比如说你去银行存钱,把这个过程记录下来的数据就是过程数据。我们今天发生的是以人为主体的数据,过去围绕过程,现在围绕人。数据以围绕人的形式来存在就是说,比如你发的微博(19.66, 0.81, 4.30%)都在你的名下,就叫行为数据。这些数据体现你的行为,你的思想,你的状态等等。过程数据跟行为数据相比小得可怜了,行为数据产生了巨大的数据增长。人类以前长久积累的数据现在只占25%左右。而行为数据导致人的行为变得越来越可分析,因为人的行为是构成社会根本的东西,所以我认为整个社会就变得可以被计算了。
大数据其实就是大计算,传统的计算是加减乘除,现在叫数据挖掘,不是简单的叠加。大数据时代新的计算形式是通过一组规则,由A数据得出B数据。视频和图象也是数据,越来越多的问题可以用计算来解决,人类行为被数据化了,社会也就成了计算型社会。
问:在这样拥有海量信息的大数据浪潮下,政策应如何追上信息技术发展的步伐?
答:在一轮又一轮的技术浪潮下,其实各国*都是反应迟钝的。因为信息技术发展到今天,它早已不是在“推动”社会进步,而是“拉动”。现在政策就被信息技术拉着走,社会的其他配套措施跟不上,政策也跟不上,所以往往是出现新技术再改政策,这点美国也一样,美国版的“滴滴打车”Uber也是经历了很多争议,还在修改政策。
问:大数据对人需求的识别有时也会引起一些警惕,比如对隐私的保护。
答:任何技术都是双刃剑。未来中国的隐私应该要立法的。你要意识到很多东西需要管制,企业不能滥用,你收集数据的目的是什么,那么这个目的就不能用到那个目的上去。人们自己也要意识到数据是自己的权力,你的数据你要能做主。现在美国网站出现很多编辑方式可以限制数据的传播,你可以对收集数据的网站说不,这就是保护。作为消费者,你同意商家收集你的数据,商家就可以更好地发现、满足你的需求,你不同意,选择保护个人隐私,也就放弃了这些服务,现在的问题是这个权力在商家,不在用户,个人没有选择权,未来应该通过法律的形式把这个权力转移到个人。
问:你也提到内开放3.0会催生人类历史上前所未有的开放社会,数据和开放之间有着怎样的联系?
答:当我们谈论开放的时候我们在谈论什么?首先是定义开放,开放最核心的东西就是信息,信息的载体就是数据。内开放3.0的时代是数据开放的时代,我们的心态跟以前完全不一样。原来信息的开放可能是一条一条的,比如我告诉你今天的PM2.5指数是多少,这是一条信息。但我们今天说的开放是整个数据库的开放,这是机器处理的,你的机器可以立刻和数据库对接,这是本质差别,也就将是前所未有的开放社会。
数据库的开放,这个程度跟力度是完全不一样的,而且开放的目的也不一样,原来的开放是为了知情权,今天的开放是为了创新。数据的整合能发现新的知识。在大数据时代,数据就是最重要的生产资料,数据在全社会的*流动,就代表着生产资料的盘活、知识和创新的*和流动。内开放3.0是数据创新的时代,数据开放是数据创新的基矗