欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

香港教授祝建华:一个文科教授眼中的大数据

程序员文章站 2022-05-28 12:54:18
  12月13日,“中关村大数据日”在中关村软件园拉开帷幕。中关村大数据日以“你好,大数据:站在数据王国的门口”为主线,从大数据发展趋势、...

  12月13日,“中关村大数据日”在中关村软件园拉开帷幕。中关村大数据日以“你好,大数据:站在数据王国的门口”为主线,从大数据发展趋势、大数据与社交媒体、开源技术与趋势等层面,将大数据与云计算结合,讲解大数据发展前景,阐释大数据商业价值,描绘大数据时代的蓝图。香港城市大学的祝建华教授在现场发表演讲,他演讲的题目是“一个文科教授眼中的大数据”。

  以下是现场速记:

  祝建华:谢谢周老师的介绍,用现在的网络语言,我是一个文科男,或者是老年文科男。最近大家最有印象的是莫言在接受诺贝奖时说了一句话,文学不是科学,文学是做无用的东西。我想解释一下文学不等于文科,文科的面更广,在国外分为人文学科和社会科学。我们做的其实是社会科学,当然在座的大部分应该是理科男或者工科男。我很感谢会议把我的发言放在第一位。我觉得我有点对不起组织者,讲一些文科男或者社会科学研究人员对大数据的看法,有些看法也许不是那么乐观,有些保留,这些问题只是供大家参考。

  今天上午几个发言人都讲到了现在的大数据是大热,我做了一个小小的统计,(如图)左边在Google搜索词中有关大数据的搜索很多。右边是SCI/SSCI期刊里有关大数据的研究论文,相比之下,学术界对大数据的关心热情比整个社会来的更积极。有关大数据的论文在最近几个月有非常大的增加,反而一般用户的关心当中大数据是平滑的在增加。

  我进一步看了一下,研究大数据的学者当中都是来自什么学科的?首先第一位应该是信息科学,计算机科学,占27%。相等的是工程技术,当然在很多学校工程技术跟计算机信息科学和技术是交叉在一起的。这两个部分占了一半以上。然后是两个比较大的应用领域,医学生物化学是一类,下面是基础研究,数学、物理。再往下两个比较小的团队,一个是商学院,一个是社会科学,加起来15%左右。我们做的研究差不多落在这15%里面。

  虽然是文科男,但一直在做数据,以前做的都是小数据,我有幸被邀请参加了中国计算机学会最近成立的大数据专家委员会,也参与了大数据委员会对大数据研究的一些热点问题和发展趋势的评选工作。按照我的理解,最近发布的对大数据研究的八个热点问题和十大趋势,在全球范围内至今是最系统的一些看法和表述。当然美国和欧洲各个机构,各个商业学术团体都有一些非常精辟、非常精彩的看法,但从全面性讲这可能是第一个文件。

  大数据这个概念最近一直在受到关注的同时,也是有很多批评的意见。也许大家都见过这一条报道,他是Sybase的技术总裁,他讲大数据是一个大谎话。Sybase在座的可能都很熟悉这个公司,是做数据库的,长期为企业做BI应用工具的。他们一直在做大数据的工作,所以觉得现在所有讲的东西早已有之,不是什么新的东西。所以,从这个角度讲他觉得是有点泡沫,有点夸张。做时政研究的人并不完全认同,有些地方是有点夸大,但没有夸大到是虚假的泡沫。

  再回到4个V,什么是大数据。从4个V可以衍生到中文当中的多快好省这四个词。哪些是理论上应该实现的,哪些实际上已经在展现,哪些现在还有差距的,是不是多快好省。多,大家讲的个案很多,做数据分析有一对基本的概念,就是我们不仅关心了是个案,同时关心的是变量,变量就是特征值。如果是做一个网络流量的数据,我们关心的是网民各种各样的特征值,做产品的话,产品也有更多的特征值。这两者的交叉,用一个二维的表来说,个案就是每一行,变量就是每一列。在这样的范围内讨论,按照我的想法我们应该关心的是总体和样本之间的选择,到底我们应该是做样本还是选总体。

  我想引入另外一个概念,我们有一个叫总体数据,大家都非常清楚,最容易解释的是每十年中国和其他很多国家都要对全国的居民进行人口普查,最近一次的人口普查2010年,发现13.8亿。另外一个概念我们经常用的是样本,抽查,每一年国家人口统计中心或者国家统计局还要做千分之二的样本调查,知道在两次大的十年之间的人口普查之间中国人口增长的变化。

  实际上我们现在在讲的大数据,理论上讲应该指的就是总体数据,但实际上在很多情况下,由于技术的原因,由于人为的原因,由于其他原因,按照我的看法,除了少数数据的原始拥有者。例如淘宝或者是新浪微博,或者是今天上午讲到的国家电网或者是教育网,他们也许是真正掌握了总体数据的。对于绝大部分第三方来讲,我们并没有拿到总体,那多的都是局部。这个局部也许是很高的百分比,70%、80%,哪怕是缺了这10%、20%,也许局部数据跟总体就有很大的差别。

  我们社会科学做时政研究的人来看,很多情况下样本数据,虽然它的规模要小很多,但实际上比局部数据要更有价值,更可靠。我这里做了一个很小的模拟,随机产生了一万个个案。从一万个点中我抽了500个点,随机抽的。500个点看上去很稀疏,但是它对总体的代表是很好的。我抽了500个个案的样本,计算百分值也是在原点。再抽80%的样本数,人为的设定一些界限,使得其右方向偏,它的数就有所偏离。

  数据是用来描述客观事件的,一般把事件分成两类,一类是常态的,一类是异常的。最极端的是前几年有人讲的黑天鹅事件,理论上存在,实际上很少发生,如果发生的话,它对社会带来的影响是极其灾难性的后果。如果我们我们有总体,那没有问题,任何事件都在数据当中可以反映。如果我们有幸获得总体数据,以淘宝为例,淘宝的总体数据仅仅是淘宝网上的,它并不是中国电子商务所有的数据,还有京东,还有其他。谁要说我研究的对象是中国电子商务淘宝的数据,再海量也是一个局部数据,而不是总体数据。

  不管怎么说如果你正好有这么一个总体数据,你就不用担心你想描述的事件是常态的还是异态的,不会漏掉东西,结果一定是准确和精确的。如果我们有样本,只要你的抽样方法是符合随机概率的原则,你的基本结论,你的样本对总体是有无偏的估计的,就是准确的,但不一定精确。只要样本足够大,跟总体差距就在1到3个百分点之间。如果我们要研究的是一些异常事件,比如黑天鹅事件,样本数会经常遗漏这些异常数据。假定是局部数据的话,哪怕你是总体的80%,甚至90%,你研究的就是常规事件,你的代表性也许很差。局部数据不管你的规模多大,都是最坏的数据。为什么?因为你漏掉了被你选择的都是一种自我选择机制,这种机制是无所不在的,时刻影响到我们数据的质量。很多情况下我们研究者并不知道为什么我们缺少的一些东西,任何数据的缺少背后都有社会、经济、法律、自然等等原因。我们的观点是做大数据,要么就做总体,如果你有能力,要么就是做样本,掌握你的方法,你能估算你的误差在哪儿。如果依靠局部数据,被局部数据的海量规模所迷惑,其实是害死人的。

  历史上有过很多案例,在我们教学过程中每次必讲的是美国1936年的总统选举。2012年的选举刚刚结束,其中有一个非常让人注意的是有关选举的预测问题。这种预测从1932年开始到现在有80年的历史了。那个案例一直成为一个经典,当时有两家公司在做预测。第一家是杂志,随着杂志寄加了问卷,回来250万份问卷,那时美国全国的选民大概是1亿左右,250万已经是相当大的数量。他们经过回收,发现蓝顿比罗斯福高了14%,以绝对优势当选。另外有一家现在是全球知名的品牌,那时刚刚开始搞的一个小小的调查研究,民意测验中心,调查了5000人,他选择的是随机抽样的方法,预测是罗斯福当选,56%。最后罗斯福以压倒性的票数胜过蓝顿。发送杂志订购杂志的人相对知识多一点,更有钱,所以对共和党更支持。而随机样本虽然小,5000人,大概有一点多的百分点,跟总体有一定的差别,但大面是准确的。只是大,但不注意数据的代表性,后果更严重。

  我们现在讲大数据,这是以前社会科学家们做的小样本,我们用的数据叫做少个案、多变量。我们数据的结构有N个个案,理想当中的大数据,不仅要变量多,而且个案多,不光是N个,也许是无穷大的。也许我的接触是有限的,我的观察是现实生活中我们现在用到的大数据仅仅是个案多,变量并不多。早晨有人的演讲当中用了7万个变量预测借贷款,这当然是一个革命。以前我们所谓的多变量只有几百个,最多也就是上千个,7万个变量是从什么地方来的,真的是惊人的。多个案,少变量的数据结构是我们面临的大数据的基本环境。造成的原因之一就是每个人占据了其中的一小部分,也就是所谓的数据孤岛。真正要使我们有多个案,多变量大数据的方法,就像今天早上启动的大数据联盟,通过分享、通过整合才能做。

  快,其实是效果跟效益之间的选择。我还是用社会科学文科男们做的研究作为慢的例子和现在的大数据的一些基本方法来做比较。我们做的都是手工标注的,现在都是自动分类的。从规模上是没办法比的,我们一般一个样本只有几千个,现在几百万是小的,到万亿才是常态的。从准确率来讲,人工永远超过机器的。有人统计过,我也是自己观察一下,机器学习的准确率平均差不多在80%左右,当然也有些做自然语言处理的,做人工智能的会跟我辩论,说某一个特定的项目他们能做到90%。但是如果把所有的研究都拿来平均一下,80%是比较乐观的标记。人工情况下基本能做到90%、95%,一般学术期刊上准确率低于95%是不会接受的。问题是你怎么知道你的准确率?我们的一般方法是对同样的内容要有两个或者更多的人分别独立的进行标注,而且是背靠背的互相不知道。通过各自的理由,最后计算相互的相似度。

  大部分情况下如果是全自动的连准确率都是无法知道的,现在大量的用网上抓做预测的,到底预测以后准不准,永远是一个未知数。从误差来讲,人工判断有误差,但这些误差都是个人误差,如果有几个人同时做的话,其实误差可以非常小的。机器学习的误差是系统性的,如果你知道偏在哪儿,可以很容易的就把它改过来,关键是误差差在什么地方不知道。这就是我刚才讲的,如果是我们已经拿到了局部的数据,你不知道局部的系统误差是往左偏,还是往右偏,偏高了还是偏低了并不知道。所以,按照我们的看法人工小规模的小样本的数据,研究结果是准确的,但是不够精确,所谓精确就是不够稳定。继续学习的方法倒过来,因为你有海量的数据,几百万,几千万,非常精准。其实精准这个词从英文里面只讲准不讲精,精而不准是大数据现有的一个问题。很自然的想到我们需要把人工标注和自动分类结合起来,有监督的机器学习。机器学习包括训练集的质量,训练集规模和你的算法,这三者的重要性就是按照这个排位的。

  省,到底是省的人,还是省的能源。大数据肯定省的是人,但省人的同时在耗能。也是一个环保的问题我不想多讲,实际上是惊人的。如果现在才开始规划,不注意的话,也许几年以后大数据就成为我们一个新的污染工业,污染的重工业。确实存在的,我今天早上刚刚听说准备在什么地方建立大数据中心,来几百万台服务器。你可以想象得到所耗用的能源和它产生的辐射,我不是学物理的,我相信辐射也是非常可怕的。实际上现在数据的增加,每年递增的速度远远超过我们现在除尘能力的速度。在这种情况下,除非我们的除尘材料有突破,不然我们必须要想一个问题,到底要把总体数据保存下来吗?联通只能保存4个月,还是抽样,把大数据变小。

  这个问题是所有问题的核心,没有答案的。我只想说几个问题。第一,大数据是好,但是大数据在哪里。如果我们拿不到大数据,就是一个橱窗里面的蛋糕,只能在外面看。按照我的看法,我们可以把大数据分成几种,小规模的、中型规模、巨型规模的。小规模的非常多,免费就何以得到。中规模大部分情况下也是免费的或者是一些低成本的。真正的大数据其实是得不到的。做应用也好,做工具服务的也好,都必须考虑这个问题。这就讲到数据的分析工具,实际上对大数据的分析工具并不发达,我们现在所用到的绝大部分工具都是用来解决小数据问题的,用来解决常态数据对异态数据的统计工具。现在基本上没有,最近有人发表一篇文章讲用于大数据相关分析的一些重要思想,这个工作就相当于高斯一百多年前提出的小数据相关关系的年代。也就是说,我们处理大数据的能力还是处在起步的阶段,现在只能分析二元,而不是多元。7万个个案的模型我没看过,也许我们这种学院派的人士比较保守,我不相信他们能做到,因为现在用的都是传统的经典的工具。

  对大数据怎么看?我的看法不全部是乐观的,也不全部是悲观的。数据的存在肯定是一个新世纪、新纪元,从数据的潜在价值来讲也是存在的,但是数据的应用,数据的分享,其实是有很多问题的。数据的除尘跟数据的分析研究,其实是刚刚开始,应用现在远远走在了研究的前面。很乐意跟大家一起讨论交流,谢谢大家!