大数据成功预测美国大选
显然,“大数据”并不真正关心谁来当选下一届美国总统。不过所有的数据都显示:政治科学家和其他人相关人士都认为奥巴马获得连任可能性比较大。本次的成功预言,展示了大数据强大的能量。
统计模型在过去的几个星期里一直关注纽约时报FiveThirtyEight的博客作者和统计学家Nate Silver引导的热门话题(甚至可以说是争论)。Silver已经成为本次争议的焦点人物,在“旋风般”地宣传他的新书的同时,他的模型预测:奥巴马有超过80%的机会赢得周二的大选(后来模型提升到90.9%)。然而,普林斯顿大学信息技术政策研究员Zeynep Tufekci在上周迅捷的进行反击:Silver绝对不可能保证奥巴马将赢得11月6日的大选——仅仅说明有一个很高的可能性而已——他的模型中涉及到的任何结果都没有考虑到党派政治的影响。
信不信由你,Silver把所有的时间都花在建立统计模型——预测政治大选结果,虽然他不是唯一做这件事的家伙,不过他是最有名的。美国有很多院士,预测市场,业余爱好者和其他人也能做到这一点,他们所有的人使用不同的数据,使用不同的方法来评估的特定结果的权威性。除了少数例外,他们中的绝大多数也预测奥巴马能够获得胜利。以下是他们进行预测的结果,还有一些不太科学的来源,就像Twitter。
有谁继续看好奥巴马?
FiveThirtyEight: 我相信Silver的最终预测结果,奥巴马总统连任的机会是86.3% 。
纽约时报:Silver的同事Mike Bostock和Shan Carter,同样痴迷于数据分析,在上周五发布了他们自己模型的交互式版本。依然基于竞争力的分析,他们看到奥巴马有431种胜利途径,对比罗姆尼仅有76种。
InTrade:世界上最流行的市场预测,InTrade给奥巴马评价是67.2%的胜利机会(太平洋时间周一上午10:54),不过百分比一直在实时变化。
PredictWise:预测市场PredictWise(以雅虎的博客David Rotshchild为首,并没有真正像InTrade模式的投资)给了奥巴马一个高达72%的赢面机会,(太平洋时间周一上午9:48)。在过去一周内,机会一直在稳步上升之中。
Twitter的:虽然不是一个真正的预测模型,但Twitter的政治指数确实提供了一个衡量社会化媒体平台的用户如何评价候选人的方式。截至11月4日,奥巴马积极的情绪指数是59,而罗姆尼的只有53,不过在7月刚刚推出的时候,指数差距高达9分,罗姆尼已经缩小了差距。
谁在力挺罗姆尼?
至少有六名政治科学家/经济学家:美国科罗拉多大学教授Kenneth Bickers和Michael Berry在今年8月份公布了一份模型报告,他们认为罗姆尼有67.77%的胜利机会。
另一种“追踪成功者记录”的模式——耶鲁大学经济学教授Ray Fair——也认为罗姆尼有微弱的优势(11月2日)。
PoliticIt (tied):犹他州的普罗沃的创业公司,致力于衡量政治人物的足迹和候选人民众支持率。最初认为两者打个平手,各得50分。
更新:PoliticIt给奥巴马打了49分,而罗姆尼给了48分。他们现在预测奥巴马将会取得胜利,他们在周一公布了这篇博客文章的详细内容。
国内大数据领域最纯粹的技术盛会HBTC 2012(Hadoop&BigData Technology Conference 2012)
NFL(美式橄榄球联盟):如果任何相关性的东西和迷信都能当做一种“指示”,罗姆尼的胜利机会还是很高的,尤其是在本周专业球赛过后。经常被认为“红人”的华盛顿红皮队,在大选前的最后一场主场比赛,他们竟然输了,结果表明,罗姆尼将会取得胜利!Chris Wilson针对31个NFL球队炮制了一系列的相关性。总而言之,今年19个预言预示着罗姆尼胜利,只有12个预示着奥巴马的胜利。
【更新】最新消息:2012美国大选投票最后结果显示,奥巴马获得313张选举人票(罗姆尼获206),得票率50.34%,连任总统!Nate Silver预测对了所有50个州的选举结果,选举人票数和得票率都惊人地准确,完胜多组资深政治学专家和观察者(比如《福布斯》杂志的总编辑),充分展示了数据与数学模型的魔力,因此被媒体称为本次美国大选除奥巴马之外最大的赢家。