＂大数据＂这词不火了是不是因为没当年说的那么好

程序员文章站 2022-03-06 14:45:33

10月19日消息，国外媒体Slate刊文指出，“大数据(Big Data)”一词已经变得没有以往那么红火了，为什么会这样呢？“大数据”的问题并不在于数据...

10月19日消息，国外媒体Slate刊文指出，“大数据(Big Data)”一词已经变得没有以往那么红火了，为什么会这样呢？“大数据”的问题并不在于数据或者大数据本身很糟糕，而是在于盲目迷恋数据，不加批判地使用，那会引发灾难。数据也不一定完全反映你想要了解的事情的实际情况。

以下是文章主要内容：

5年前——2012年2月——《纽约时报》刊文高呼人类的一个新纪元的到来：“大数据时代”。该文章告诉我们，社会将开始发生一场革命，在这场革命中，海量数据的收集与分析将会改变人们生活的几乎每一个方面。数据分析不再局限于电子数据表和回归分析：超级计算的到来，伴随着可持续记录数据并将数据传送到云端的联网传感器的不断普及，意味着迈克尔·刘易斯（Michael Lewis）2003年的棒球书籍《Moneyball》所描述的那种先进数据分析有望被应用于各行各业，从商业到学术，再到医疗和两性关系。不仅如此，高端的数据分析软件还有助于鉴定完全意想不到的相关性，比如贷款方用尽额度和他债务违约的可能性之间的关系。这势必将会催生会改变我们思考几乎一切事物的新颖见解。

《纽约时报》并不是第一个得出这一结论的企业机构：它的文章引用了麦肯锡咨询公司2011年的一份重大报告，其观点也得到了2012年瑞士达沃斯世界经济论坛题为“大数据，大影响”的官方报告的支持。但这种宣言仿佛就是标志大数据时代开启的里程碑。在之后的一个月里，巴拉克·奥巴马（Barack Obama）的白宫成了一个2亿美元的国家大数据项目，疯*潮随即袭来：学术机构、非盈利组织、*和企业都争相去探究“大数据”究竟是什么，他们可以如何好好利用它。

事实证明，这种疯狂没有持续很长时间。5年后，数据在我们的日常生活中扮演重要很多的角色，但大数据一词已经不再流行——甚至让人觉得有些讨厌。我们被允诺的那场革命究竟发生了什么呢？数据、分析技术和算法现在又在往什么方向发展呢？这些问题值得回头去思考。

科技咨询公司Gartner在它2015年相当有名的“技术成熟度曲线”报告中不再使用“大数据”一次，之后该词再也没有回归。该公司澄清道，这并不是因为企业放弃挖掘巨量数据集获得洞见的概念。而是因为那种做法已经变得广为流行，以至于它不再符合“新兴技术”的定义。大数据帮助驱动我们的动态消息、Netflix视频推荐、自动化股票交易、自动校正功能、健康跟踪设备等不计其数的工具背后的算法。但我们现在不大使用大数据一词了——我们只是将它称作数据。我们开始将数据集能够包含无数的观察结果，先进软件能够检测当中的趋势当做理所当然的事情。

大数据引发的严重错误

虽然该词仍有被使用，但它更多地带有一种不好的意味，比如凯茜·奥尼尔（Cathy O’Neil）2016年的著作《数学杀伤性武器》（Weapons of Math Destruction）或者弗兰克·帕斯夸里（Frank Pasquale）2015年的《黑箱社会》（The Black Box Society）。匆忙执行和应用大数据，即进行所谓的“数据驱动型决策”，带来了严重的错误。

有的错误相当惹人注目：塔吉特（Target）曾向一位没跟任何人说过自己怀孕的少女的家庭派送婴儿用品优惠券；Pinterest曾恭喜一位单身女性即将结婚；谷歌照片（Google Photos）也曾引发轩然大波，该公司被大肆吹捧的AI将黑人误以为是大猩猩，原因是它的训练数据不够多元化。（值得指出的是，至少在该事件中，“大数据”还不够大。）

其它的错误更为微妙，或许也更加阴险。当中包括奥尼尔在她的重要著作中记录的那些不透明的数据驱动式制度性模型：被法庭用来判决罪犯的、带有种族偏见的累犯模型，或者那些基于可疑的测验分数数据解雇备受爱戴的教师的模型。大数据出错的新案例可谓层出不穷——比如Facebook算法明显帮助俄罗斯通过针对性的假新闻影响美国总统大选的结果。

盲目迷恋数据与误用

“大数据”的问题并不在于数据本身很糟糕，也不在于大数据本身很糟糕：谨慎应用的话，大型数据集还是能够揭示其它途径发现不了的重要趋势。正如茱莉娅·罗斯·韦斯特（Julia Rose West）在最近给Slate撰写的文章里所说的，盲目迷恋数据，不加批判地使用，往往导致灾难的发生。

从本质来看，大数据不容易解读。当你收集数十亿个数据点的时候——一个网站上的点击或者光标位置数据；大型公共空间十字转门的转动次数；对世界各地每个小时的风速观察；推文——任何给定的数据点的来源会变得模糊。这反过来意味着，看似高级别的趋势可能只是数据问题或者方法造成的产物。但也许更重大的问题是，你所拥有的数据通常只是你真正想要知道的东西的一个指标。大数据不能解决那个问题——它反而放大了那个问题。

例如，民意调查被广泛用作衡量人们在选举中的投票意向的指标。然而，从汤姆·布拉德利（Tom Bradley）1982年在加州州长竞选中败北，到英国脱欧公投，再到特朗普的当选，数十年来结果出乎意料的选举一再提醒我们，民意测验和人们实际的投票意向之间并不总是完全一致。Facebook以往主要通过用户有没有点赞来估量他们对特定的帖子是否有兴趣。但随着经过算法优化的动态信息开始大量出现标题诱饵、点赞诱饵和婴儿照片——导致用户满意度明显下降——该公司的高层逐渐意识到，“点赞”这事并不一定意味着用户真的喜欢特定的内容。

指标和你实际上要估量的东西之间的差别越大，过于倚重它就越危险。以来自奥尼尔的著作的前述例子为例：学区使用数学模型来让教师的表现评估与学生的测验分数挂钩。学生测验分数与不在教师控制范围内的无数重要因素有关。大数据的其中一个优势在于，即便是在非常嘈杂的数据集里，你也可以发现有意义的关联性，这主要得益于数据量大以及理论上能够控制混杂变量的强大软件算法。例如，奥尼尔描述的那个模型，利用来自多个学区和体系的学生的众多人口结构方面的相关性，来生成测验分数的“预期”数据集，再拿它们与学生的实际成绩进行比较。（由于这个原因，奥尼尔认为它是“大数据”例子，尽管那个数据集并不够大，没达到该词的一些技术定义的门槛。）

试想一下，这样的系统被应用在同一所学校里面——拿每个年级的教师与其它年级的教师比较。要不是大数据的魔法，学生特定学年异常的测验分数会非常惹眼。任何评估那些测验的聪明人，都不会认为它们能够很好地反映学生的能力，更不用说教他们的老师了。

而前华盛顿特区教育局长李洋姬(Michelle Rhee)实行的系统相比之下更不透明。因为数据集比较大，而不是小，它必须要由第三方的咨询公司利用专门的数学模型来进行分析解读。这可带来一种客观性，但它也排除掉了严密质问任何给定的信息输出，来看看该模型具体如何得出它的结论的可能性。

例如，奥尼尔分析道，有的教师得到低评分，可能不是因为他们的学生表现糟糕，而是因为那些学生之前一年表现得出奇地好——可能因为下面那个年级的教师谎称那些学生表现很好，以提升他自己的教学评分。但对于那种可能性，学校高层并没什么兴趣去深究那种模型的机制来予以证实。

加入更多指标

并不是说学生测验分数、民意调查、内容排名算法或者累犯预测模型统统都需要忽视。除了停用数据和回归到奇闻轶事和直觉判断以外，至少有两种可行的方法来处理数据集和你想要估量或者预计的现实世界结果之间不完全相关带来的问题。

其中一种方法是加入更多的指标数据。Facebook采用这种做法已有很长一段时间。在了解到用户点赞不能完全反映他们在动态消息当中实际想要看到的东西以后，该公司给它的模型加入了更多的指标。它开始测量其它的东西，比如用户看一篇帖子的时长，他们浏览其点击的文章的时间，他们是在看内容之前还是之后点赞。Facebook的工程师尽可能地去权衡和优化那些指标，但他们发现用户大体上还是对动态消息里呈现的内容不满意。因此，该公司进一步增加测量指标：它开始展开大范围的用户调查，增加新的反应表情让用户可以传达更加细微的感受，并开始利用AI来按页面和按出版者检测帖子的标题党语言。该社交网络知道这些指标没有一个是完美的。但是，通过增加更多的指标，它理论上能够更加接近于形成可给用户展示他们最想要看到的帖子的算法。

这种做法的一个弊端在于，它难度大，成本高昂。另一个弊端在于，你的模型加入的变量越多，它的方法就会变得越错综复杂，越不透明，越难以理解。这是帕斯夸里在《黑箱社会》里阐述的问题的一部分。算法再先进，所利用的数据集再好，它也有可能会出错——而它出错的时候，诊断问题几无可能。“过度拟合”和盲目相信也会带来危险：你的模型越先进，它看上去与你过往所有的观察越吻合，你对它越有信心，它最终让你一败涂地的危险就越大。（想想次贷危机、选举预测模型和Zynga吧。）

小数据

对于源自大数据集偏见的问题，另一个潜在的应对方法是部分人所说的“小数据”。小数据是指，数据集足够简单到可以直接由人来分析和解读，不需要求助于超级计算机或者Hadoop作业。跟“慢餐”一样，该词也是因为其相反面的流行而产生。

丹麦作家、营销顾问马丁·林德斯特罗姆（Martin Lindstrom）在他2016年的著作《小数据：揭示大趋势的微小线索》中谈到了那种做法。例如，丹麦知名玩具厂商乐高（Lego）依据大量声称千禧一代需要即时满足，更容易被比较轻松的项目吸引的研究，转向提供更大的积木，还在1990年代末和2000年代初打造主题公园和视频游戏。这种转型没有奏效。

那种由数据驱动的范式最后被它的营销者2004年进行的一项范围小得多的人类学调查颠覆。它的营销者逐个询问小孩他们最珍爱什么物品，发现他们最喜欢也最忠于可让显示出其苦苦练就的能力的产品——比如一双因数百个小时的滑板练习而磨损的旧运动鞋。据林德斯特罗姆（他曾担当乐高的顾问，自己也很喜欢玩乐高积木）说，乐高重新专注于提供它原来的小积木，由此实现复兴。

在很多方面，亚马逊是可充分说明大数据威力的典型例子。它关于其数以亿计的顾客的购买和商品浏览习惯的数据，帮助它成为全世界最成功的零售商之一。不过，布拉德·斯通（Brad Stone）在他的书《万货商店》（Everything Store）中称，该公司的CEO杰夫·贝索斯（Jeff Bezos）有个很有趣（对于他的员工来说则很可怕）的方式来平衡所有的那些客观数据分析。他时不时会将顾客发来的投诉邮件转发给他的高层团队，要求他们不仅仅要解决投诉的问题，还要彻底调查清楚它发生的原因，并撰写一份解释报告。

这说明，贝索斯不仅仅理解大数据提升各个系统运行效率的威力，还知道大数据也要可能会掩盖没有得到有效估量的特定问题的发生原因和机制。在根据你知道该如何测量的事情做出决策的时候，安全的做法是确保也有机制让你能够知道你不知道该如何估量的事情。“问题总是，你没有收集什么数据？”奥尼尔在接受电话采访时表示，“什么数据是你看不到的？”

未来展望

随着“大数据”不再被当做热词，我们有希望逐渐对数据的威力和陷阱形成更加细致入微的理解。回头来看，收集数据的传感器和分析数据的超级计算机一下子大量涌现，引发一股淘金热，以及很多时候错失这一切的恐惧会压过你的审慎情绪，都是可以理解的。与此同时，必然会有深思熟虑的人开始引起我们对这些情况的注意，大数据也不可避免地会带来反效果。

不过，大数据误用带来的威胁，不会仅仅因为我们不再用敬畏的口吻来说那个词而消失。看看Gartner 2017年技术成熟度曲线的顶峰，你会看到像机器学习和深度学习这样的词，以及代表这些计算技术的现实应用的无人驾驶汽车、虚拟助手等相关的词。这些是基于与大数据一样的基础的新“棚架层”，它们全都依赖于大数据。它们已经走在通向真正的突破的道路上——但可以肯定的是，它们也会导致严重的错误。（乐邦）

上一篇： 360发布春运大数据:2017将成＂史上最难抢票年＂

下一篇：数据教的崛起，真正的人工智能是一张“巨网”

＂大数据＂这词不火了 是不是因为没当年说的那么好