中科院教授曾大军:大数据的公共管理
【天极网消息】12月13日,“中关村大数据日”在中关村软件园拉开帷幕。中关村大数据日以“你好,大数据:站在数据王国的门口”为主线,从大数据发展趋势、大数据与社交媒体、开源技术与趋势等层面,将大数据与云计算结合,讲解大数据发展前景,阐释大数据商业价值,描绘大数据时代的蓝图。中国科学院自动化研究所教授曾大军发表了主题演讲,就公共管理大数据的背景和现状,大数据环境下的公共管理的一些新的理念以及机遇发表了自己的看法。
以下是现场速记:
大数据本身在过去的一年多的时间里,应该说已经成为IT学术界和相关的工业界最热门的话题。世界各国都非常重视大数据方面的研究,并从国家战略的层面相继推出了自己的研究计划。表里面列了主要几个国家,像美国、欧洲、日本,我们国家相关的计划也在酝酿之中。美国联邦*今年4月份率先推出了大数据计划,这个表上列了一些参与的单位。大家可以看到,除了里面几个跟科学大数据,像核物理、像地学等相关的部门以外,其实其他绝大多数的部门里面做的都是与公共管理有直接关系的。
我们讨论的应用背景和动因是公共管理,开始介绍之前最好界定一下什么是公共管理。我自己是IT的背景,在中国和美国都做过一些公共管理方面的应用。本来以为随便找一本教科书就可以找出一个非常精准的定义,结果发现现在共识的定义是没有大家都可以认可的。国际和国内都是这样,没有办法,只好用一些非正式的和启发式的这么一些定义,大概的来说在我们讨论里面,公共管理主要指*部门公益性的职能,还有具体服务于国家、社会、企业、社区等等的行为。
我们先简单的讨论一下什么是公共管理大数据,然后再讨论大数据环境下面的公共管理。模仿美国给大数据下的一个定义,我们把公共管理大数据定义为由传感设备、科学仪器、应用软件、互联网以及*相关的调查研究等等渠道,生成的这些大规模多模态分布式长期的面向公共管理领域的复杂数据集。与一般意义的数据相比,公共管理大数据之所以称为大数据,主要是因为首先在现有的技术条件下面,我们不能进行相关的处理。其次,即使在理论上能够处理了,但是因为效率低下,无法在给定的时间给出有意的结果。公共管理大数据主要有两个来源,一个来源是*内部数据,比如*搜集的各种资料,还有由*业务产生的各种数据,比如大家从机场过安检,过程里*部门收集了很多多媒体的数据和文本数据。除了*内部数据以外,还有*内部也产生很多公共管理相关的数据。互联网在外部数据里扮演了非常重要的角色,像由网民群体产生的数据,例如微博等等。
*的内部数据很像企业的ERP数据,它们结构化的程度非常高,而且数据采集的频率也比较固定,根据不同的应用有月的、有年的,有按小时的。*外部数据里面包含许多非结构化的数据,文本的、多媒体的。数据本身它也是实时的。每谈到大数据,大家都喜欢引用一些吓人的数据,我也想跟风,结果很可惜,我的研究生花了一天一夜找了各种各样的数据,没有对大数据有一个估计。
美国*最近发布了一个资料,各个*部门加起来数据中心的总量超过2000个。每个数据中心的数据没有公布,但是他说的数据中心都是规模相当大的,集成的数据服务中心。大家如果再进一步发现里面很多的数据集,每一个数据项本身的规模都非常庞大。
我一个朋友在美国的大学里处理的数据,加起来有64亿条之多,这里在公共管理领域上是起到非常大的作用的。有了这些大数据,我们能够做出什么跟以前不一样的事情?下面我想从理念的层面谈一谈我们在大数据时代公共管理方面比较粗浅的见解。
近年以来,各国*非常重视社会信息化的建设,我们刚刚闭幕的十八大报告里也多次提到了社会信息化。大数据必将为社会信息化和公共管理信息化带来重大的机遇。一方面*内部大数据的层面来说,目前*内部的数据量激增,数据的复杂性和实时要求性也非常的明确。怎么样充分利用这些数据,提高*公共管理的效率和效果,决策的科学性等等,都已经成为了技术上的瓶颈。另一方面,互联网和社会媒体上蕴含的数据,对公共管理,尤其是对社会安全,可以说现在正在产生更为重要的影响。传统的基于数据统计分析的公共管理模式,已经无法满足我们提到的在大数据环境下进行公共管理服务的要求。大数据本身是*的一个战略资源,对于*公共管理政策的制定、实施和评估,这几个方面都有非常重要支撑作用。
(如图)上面有很多具体的公共管理上的功能点,我们可以根据大数据的分析和挖掘,实现由数据驱动的公共管理上面的决策科学化。在智能化和的基础上,我们最终实现了智慧城市这么一个通盘的考虑。
为了实现智慧城市这么一个远景的目标,大数据事实上是直接要促进*对公共管理理念的转变。其中的一个思路,事实上也是从电子商务最近的像在营销学和运营学提出来的理念,我们觉得放在公共管理里面也是非常合适的,就是以社会生态系统的视角,从这个角度审视公共管理中的各种理念。
在新的视角下面,*是需要改变传统的角色模式的。左面这一列是对传统模式的一个基本上的梳理,主要是基于经验,基于领导意志。右边这四条,每一条都针对前面提到的现代业务公共管理里面的决策模式,可以说是革命形式的转化,从多维度进行的变革。与民众之间有一个协同发展的过程,问政于民,问计于民,这是他们管理模式的核心。其他的在*各部门之间,以前也是各自为政,现在*各部门之间在基于社会生态体系系统的这么一个视角下,也需要摆脱这种模式,做到他们之间的互相共赢的合作的方法。
数据处理方式,在大的场景下,它有需要有比较大的改变。从传统的基于结构化数据的挖掘,转变成更加粗的社会生态系统整体的从系统层面进行分析。最终我们希望得到在宏观的知识的挖掘,在智能化的决策支持方面,能够有更好的工作,能够对公共管理进行更好的支撑。
有了远景的目标和新的理念以后,公共管理大数据的处理和分析还面临一些具体的在数据管理层面,在数据分析层面,数据共享各部门之间共享,包括和民众共享方面,还有在决策方面有一些比较细致的技术层面的一些挑战。因为时间关系,我在这儿就不详细介绍了,数据管理层面包括采集存储控制,尤其是在外部数据方面,事实上公共管理领域里面遇到的问题跟我们前面讨论的电子商务领域遇到的问题是类似的。分析工具有深层的,有浅层的,公共管理领域有一些新的特有的需求,在电子商务里没有,这些都需要我们做IT的,或者跟*信息化相关的企业能够提供更好的模型、计算方法给予支持。
在共享的技术层面,这也是老生常谈。最核心的还是各个数据来源之间比例的匹配,包括数据源之间动态更新和可视化等等。这在一般性的数据挖掘中也会碰到这样的问题。在决策技术层面,这些挑战应该说是公共管理理念特有的,怎么样针对公共管理理念非常具体的决策场景,我们能够做出基于动态的、社会数据的这么一些决策的框架,能够给他做出基于大数据的支撑,这里面有很多研究的工作可以进一步的开展。
下面我想非常快的介绍三个案例。第一个案例,这是美国的一个计划,欧洲在里面也有不少参与。里面主要做的一件事就是把每个*里各个部门之间的数据综合起来,它的基本思想就是做一站式的网站,通过这个网站把很多*各部门的数据聚拢起来。聚拢过之后,能够向民众开放原始数据,能够在*之间进行各种各样的数据共享。同时能够在共享的数据,融合数据体以后,有了融合过程之后,能够做各种各样的服务。从多个*的数据源获取数据整合出来之后,能够做很多非常有意思的对社会学、对公共管理,甚至在IT方面,甚至我刚才提到的广告都很有关系。通过一些特有的数据源能够分析出许多非常有意思的事情。
分析一些美国和中国之间的经济数据,还分析了美国媒体对美国本身*投资之间有什么关联的关系,这些都通过Mashup融合过的数据得出非常好的分析结果来。
第二个研究案例是Ushahidi,诞生于2007年、2008年的肯尼亚危机事件。实时的由民众来贡献,当危机发生一个,一个事件发生以后,各类的灾情和相关的救援信息由老百姓通过自己的移动终端,包括其他的一些信息终端统一的整合起来,整合以后,在时空上面其实用的非常简单,底层技术非常简单。这个词大家觉得比较怪,它实际上非洲的一个语言里面证词的意思,证词就是老百姓看到了事情希望通过一个平台跟大家共享。这个平台发布了以后,在各国媒体都引起了很大的反响,被誉为给应急的响应和救济的处置带来了革命性的变化。我简单的介绍一下从起点到现在大概4年多的时间,在全球10起的突发事件中都起到了重要的作用,尤其是在海地特大地震当中发挥的作用在全世界都受到了非常好的关注。在墨西哥湾石油泄漏中,把一般老百姓贡献的信息,包括油漏和各种各样的灾难信息综合起来以后,*花了非常非常多的钱,大范围的油污监制和*整合的资源做了一个对比。结果发现由民众不花钱的方式积累起来的信息,跟*花了大量的资源收集起来的结果基本一致。用这个平台获得的信息时效性更高,动态效果更强,而且监测更有深度,对救援人员来说做决策都是非常有帮助的。同时,过程里不光是一个信息聚集的过程,跟大众交互的过程中实际上已经有很多的互动。
下面一个项目是我以前的一个朋友在哈佛医学院主导的一个项目,这个项目跟刚才说的项目非常的相似。它也是基于互联网的全球预警系统,这套系统关注的点只是全球的传染病的爆发。它的模式跟刚才说的非常一样,老百姓每个人有什么病,头疼发热,这些信息他就通过移动终端,iPhone上也有,通过其他的渠道把它汇总到哈佛的平台上面。汇总过后平台做一定的过滤,因为害怕有人在里面报虚假的信息,过滤之后,在内部平台的电子地图上对各类的疫情病的情况进行动态的跟踪。不光有个体的用户,还有单位的用户,他们根据定制可以做各种各样的预警。这个平台运行大概有3年的时间,不仅能够实时监测官方报道的全球疫情的情况,同时还能监测到许多官方不能获得的疫情信息。它对全球疫情爆发,每周做预测的时候已经变成了一个重要的信息渠道。这个案例我就不在这儿讲了,在海地的地震里,对整个过程,尤其是公共卫生方面进行了持续不断的关注。
第三个案例是中科院自动化所做的一个基于互联网的实时传染病和生物反恐方面的监测预警的整体的体系。里面核心的一点是像这种应急的场景下,最要紧的一个因素实际上是时效性,很多病你如果早知道几天,从公共卫生的部门实际上做响应,做各种各样的处置,都会有一个很好的结果。如果就晚那么三天,很多事情已经拖到最后无法解决了。有一个量化的手段,有一个持续性的实时的连续监测的手段,对跟传染病爆发有可能相关的因素进行实时的监测,并且建立模型,根据这些模型最后能够给公共卫生应急体系,你能够告诉他什么地方有什么风险,数据告诉你有可能有什么爆发的趋势。
现在由国家的重大科技专项支撑的项目,我们已经做完了北京市的很多病的预警情况,正在往全国的范围内推广。最后很简单的提两句展望。从三个层面。一个是数据层面,二是分析和决策层面,最后一个是人的层面。这些都是对公共管理大数据研究的一些想法。
数据层面,根据我们对文献的理解和我们自己做项目的经验,我们感觉有两点最重要。一点是社会计算。现在大家提的一个概念是物联网、虚拟网络和社会计算全部混在一起的这么一个复杂的数据系统。在这层数据里面,分析和处理都有很多新的东西可以做。
二是数据共享。从分析的角度,我们的想法跟很多今天听到的有所不同,数据是一个比较古老的想法。一个数据本身并不能告诉你故事,尤其是在社会领域。在社会管理层面,在公共管理层面,很多必须是基于模型的。基于模型的理念跟基于数据的技术方法必须有一个深度的融合。
三是以人为中心的计算。里面有两层含义,一层是以社会公众个体为中心的个性化的公共管理服务,这块在医疗,包括其他的企业,现在这些行业我们看到已经有很好的体现。我们预测它会越来越重要。还有一块是刚才提到的众包,是老百姓通过各种各样的方式帮助*解决各种问题。这里面有很多机制设计的问题。你做公司的时候公共管理也是很有机遇的,系统评价各方面应该说里面有很多有意思的东西大家可以深入的进行一些研究。谢谢大家!