欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

成功预测美国大选结果的数学天才:什么是大数据做不到的?

程序员文章站 2022-06-26 12:52:34
统计学家内特(Nate Silver)出名靠的不是自己的数学天才(尽管他的确是数学天才)。内特为人所知的地方在于他明白如何将自己的技能用于真实世界。作为美国最著名的数据分析人员,他凭借对于总统大选的预...

统计学家内特(Nate Silver)出名靠的不是自己的数学天才(尽管他的确是数学天才)。内特为人所知的地方在于他明白如何将自己的技能用于真实世界。作为美国最著名的数据分析人员,他凭借对于总统大选的预测一举成名——去年十一月的总统选举当中,他准确预测了50个州的结果。2008年,50个州里面他成功预测了49个。内特的大数据分析才华也应用到了体育(NCAA的疯狂三月、职棒大联盟)、赌博(今年夏天内特将第三次参加全球扑克大赛)、甚至约会分析上。内特曾经为棒球网站写比赛预测,之后尝试多元化发展。如今他是一个出版过图书的作家,一位政情专家,以及纽约时报博客FiveThirtyEight的创始人。

本周四,内特来到旧金山参加年度LiNC大会,发表有关数据分析的演说。《财富》杂志采访了他,探讨了大数据的应用局限、在股票市场扮演的角色、如何影响男女约会以及他对2016年总统大选的预测。如下为采访全文:

我肯定总是会有很多人找你讨论,如何能赢下NCAA疯狂三月赌博盘口的问题。

我一般都在下注时赌相反的结果,因为我认为其他人会按我说的来。如果我按自己建议其他人那样下注的话,估计赢不了。

要不明年收点许可费吧?

必须的。或者我们可以假装赌一边,然后在真正想赌的结果上押注。厄,出问题啦!哈哈。

你最开始使用数据来分析并成功预测棒球比赛——为什么后来转而研究政治?

成功预测美国大选结果的数学天才:什么是大数据做不到的?

有部分原因是我为《Baseball Prospectus》(棒球预测)写东西有大概五年的时间了——2003年至2008年——这段时间我目睹了棒球产业非常大的发展。这个时代的开始起源于《魔球》(Moneyball)里面所描述的,数据分析人员和传统做事风格的人之间有很大的分歧。人们很担心书呆子会涌进这个行业,抢走他们的工作。如今这种情况完全被逆转了,不仅你会雇佣一些数据分析人员,而且每支队伍——几乎每一支队伍,当然也有一些例外——组织内部的不同层级都理解数据分析。

一边是这种趋势在仅仅几年时间里迅猛发展,一边是政治新闻报道连篇累牍的文字措辞——政治新闻和政客的嘴里基本上都是各种废话——在我看来是时候把一些基本的分析方法应用到政治选举问题当中去了。

将你自己的政治主张和预测选举这项工作区别开来是否很难?

对所有人来说,在人生中想要做到客观总是很难的。没有人能把控现实,我们都会有平庸的观点。但我认为体育训练能够有所帮助,当我可以把自己作为一名底特律老虎队的球迷时(我从小到大本来就是),我仍旧认为洛杉矶道奇队的麦克(Mike Trout)应该赢得去年的MVP荣誉。我对政坛的分析稍有不同,这个行业里的人不仅有各自的政见主张,与此同时还需要操纵公众观点。他们曾经以为能够自己创造现实。这也是为什么我认为目前的问题所在。人们觉得如果能够以某种形式给出一个数据或者一个民调结果,问题就不复存在了。我们国家的政治媒体当中,有一些人是很优秀的,但是有一些其他人只懂得服从,为政治宣传传达各种消息,我认为这是问题的关键。政治领域的人并没不像体育界那样习惯讲究事实。

那你是怎样在信息中找到自己的答案呢?

关键在于要忽略哪些政客就公共数据发表的观点。纪录显示,一般来说大部分政治观察家对政客的一次失误或者一次辩论的重要性估计过高——不过总是有例外——但通常来说民调结果提供了非常可靠的参考标准。至于公众,他们有各自的生活问题要处理,并没有始终关注政治新闻,看待一些事情的方式也很复杂,比如经济问题、我们是否陷入了一场愚蠢的战争或者*里的那个重大丑闻。这些事情对于谁能赢得选举很有说服力,是政治专家不会关心的那种小问题。

如今的数据要比以前更多了。你要如何判断抽取哪些数据来获得相应的分析结果呢?

有一点就是,你需要一个系统的方法而不是某一个特别的方式来解决这个问题。2008年我们设计了一个模型,2012年又针对每一次民调结果进行了更新。有一些民调结果,如果是来自纪录更好的民意专家,在系统的权重就会更高。这不是说其他人就会被忽略了。所以不是说我们会对着民调结果比手指,“这个重要,那个不行”,基本上设计这个模型所有的重要工作和决策过程都来自数据事实。基于理论、实践和过去的经验,处理这些信息的一套恰当的原则是什么呢?坚持执行就可以了。一旦每年六月我们启动了模型,不会设计替代品,除非有bug出现,可惜的是这种情况从未发生。但是原则都是相同的,你要在那个背景之下用这个原则进行分析。

有没有什么问题是使用数据和分析没办法回答的?

我想这里应该存在一个范围区间。需要知道很重要的一点是,我们擅长做什么、我们的潜力以及预测行为的本质之间是有区别的。比如你研究棒球,数据分析已经有相当长的历史了,但是最好的棒球队只能赢下全部比赛中的三分之二。最好的击球手参加的比赛里中只有40%完成了上垒。从某种意义上说,本质来看仍旧是不可预测的,但是我们很好地进行了数据测算,分清楚我们知道什么,我们不知道什么。

但是仍旧有许多领域是数据分析不发达的。我在自己的书里讨论了地震预测,人们尝试预测地震已经有几个世纪的历史了。我们知道一些事情——加州的地震次数要比新泽西更多——但是以某种精度在某一特定时间预测某一特定地震事件的能力还没有完全实现。即使是经济问题也如此——尤其是当我们做长期的经济预测时,大部分时候结果都不是那么理想。

是否有一些行业忽视了大数据分析可能带来的影响?

通常是一些不那么引人注意的行业,比如大型零售业有海量的顾客交易数据,也有供应链管理的数据,这些数据都可以用来优化库存和价格战略,颠覆原有的供应链模式。不那么吸引人的业务,常常有好的数据集合,而且是高质量的数据,能够帮助做出更好的决策。我肯定有一些公司已经在这么做了,一些效率的提高是我们之前所未曾见到的。

假如你观察一下人们观看电视的模式,会发现广告行业锁定顾客的方法是非常复杂的。对于媒体公司来说,讽刺的地方在于效率从某种程度上已经有负面作用了,过去的情况是“广告投放预算中有一半花得很值,但是你不知道是哪一半”。如今人们知道是哪一部分了,所以他们只花这部分的钱。

人们能够用某种方式通过数据准确地预测股票市场吗?

关键在于股票市场是一个大规模的比赛,人们彼此做局。问题就变成:是否有一些交易员要比其他人更出色?我认为这个答案大概是肯定的。我不是一个纯粹信任市场万能的人,我玩过很长时间的扑克,这东西和交易在很多方面是类似的。你知道总有些人看得清长期趋势,也更擅长计算不确定的因素。但是这里有许多变化和运气因素,一个市场周期可能持续数个月或者数年,也会有许多反常态的激励因素出现。当我研究那些好的交易员时,短期来看,甚至可能是5年或者10年,大部分都要归功于运气,所以这东西还挺难讲的。

你是否会把自己的模型应用在恋爱约会上?

几年前我曾经为《纽约时报杂志》做过一次,我们尝试分析一周当中哪一天晚上最适合外出约会,一家网站帮助我们搜集了数据,我们计算了两部分人的比例:想要长期恋爱关系的人和想要一夜情的人。结果是周三那天想要一夜情的人出现比例最高。

2016年的总统大选,我们应该关注谁?

如果希拉里参选,很难看到*党候选人有谁能挑战她。共和党方面,我认为会有一次党内初选的好戏看,他们的候选人有好有坏。但是没人能掌控党内的局势,他们要打一场才行。普选阶段则取决于党内初选的结果,但是人们要谨慎些,希拉里会成为一个很好的候选人,民意会稍微倾向于她,但是对任何一个政党来说想要连续三届入驻白宫都是很难的。如果2016年的经济形势不好,或者奥巴马的民意支持率在38%左右,对于*党下任候选人来说就很难翻盘了,即便是希拉里也如此。当然现在做出预测有点早,实际上,是太早了。