Nerds大数据预测选情,赢尽美国大选50州
在美国大选中,奥巴马可算是轻松赢得连任,不但在选举人团中锁定胜局,而且在普选票中更是比对手多出280万票(暂)。但是,此次大选中,无疑还有另一位赢家,Nate Silver。而他的竞选伙伴则是,“大数据”。
根据美国各大电视网给出的选举预测结果,这位数据分析大神准确预测出了美国50个州的所有选举情况。
(注:虽然现只有佛罗里达州的结果还没正式,但是在这些选区的报道中,98%都认为奥巴马会胜出。如此高的概率,当然是先当Nate Silver全中50“元”啦!)
在2008年的大选时,通过他网站Fivethirtyeight.com(意为538,美国选举人团的所有选票之和),Salver就正式打响“高度准确预测选举”一炮。那一年,他的数学模型准确预测出50个州的49个,就差印第安纳州没有预测中(据称,该州的预测只偏差0.1%。)
回到今年大选中,Silver在他的网站(已被《纽约时报》收入囊中)预测中,不但全部准确预测出各州的蓝绿倾向,而且在普选票的预测也同样高度准确:他预测的(50.8 vs 48.3)与实际的(50.4 vs 48.1)(99%的选票以计入)几乎相差无几。
相比之下,其他的所谓的权威专家就黯然失色多了。要知道,四年前,乃至在这次的选举竞选期间,他们都还批评Nate Silver的平均和加权有“倾曲”呢。在对其批评声中,Dean Chamber的是最响亮的,现在他在被采访时,也都承认这次Sliver对了。
那么,这位前棒球数据分析师是如何做得的呢?会不会十足《点球成金》里面的对应人物角色呢?
那些像Silver建立的成功模型,最重要的就是,剔除方程式中所有短视的人为偏见。
谈到选举预测,Silver表示,从设置变量开始,对于每一种的民意调查,都必须只根据它们的历史准确性,其给予其权重。然后,再加入你认为会影响结果的其它条件。在接下来,就是坐在那儿,让算法算出结果了。
Silver暗示,现在有那么多的民意调查数据,我就是从这堆“大数据”当中挖出自己所要的东西的。
“当人类的判断与‘大数据’相互交锋时,一些有趣的东西就会出现。一方面,我们可以获取越来越多的信息,帮助我们更好地决策。另一方面,随着信息越堆越多,在选择信息的时候也就越需要挑选,因为有些是错误和不准确的。”
在大选的前几周,Silver就推出了其关于预测的书作《信号与噪音:为何那么多的预测都会失败——而一些却不会》(The Signal and the Noise: Why So Many Predictions Fail — But Some Don’t)。读者朋友如想在此方向创业,可以留意下。
不知道到了2016年,美国的各地电视网络,会不会都会请出诸如Nate Silver那样的神人呢?但至少可以预见到的是:看到Silver为《纽约时报》网站带来如此大的网络流量,各媒体组织应该也都想拥有自家基于民意调查的算法了,同时,当然是减少基于个人的意见分析(大多都有意错误引导观众)。
看来,统计、“大数据”、中立的数学模型,这才是人们所真正需要的。
好吧,nerd们,或应该是geek们,虽然世人还没跟上咱们的步伐,但是随着更多“谢耳朵”式的人物不断出现,咱们迟早会大获全胜的。现在就与Nate Silver一样神人好好努力吧!
如果想看看Silver的模式究竟有多准确,文章最后就直接上图了。
上一篇: 奥巴马连任背后:政界大数据时代即将到来
下一篇: python 之 初识面向对象