大数据:2013奥斯卡将花落谁家?
第85届奥斯卡金像奖颁奖晚会将于美国当地时间2月24日举行,奥斯卡小金人最终将花落谁家?近日,由微软研究院的David Rothschild通过对奥斯卡入围影片相关数据分析,预测出本届奥斯卡各项大奖的最终归属。
作为预测努力的一部分,David Rothschild与微软Office团队合作开发了一款Excel应用Oscars Ballot Predictor(奥斯卡投票预测器),该应用为所有24个类别的奥斯卡得奖奖项提供实时预测。
David Rothschild所提供的一些获奖概率信息:
·最佳影片奖:Argo,获奖可能性93.9%。
·最佳导演奖:斯蒂芬·斯皮尔伯格(Steven Spielberg)(影片《林肯》),获奖可能性83.7%。
·最佳男演员奖:丹尼尔·戴-刘易斯(Daniel Day-Lewis)(影片《林肯》),获奖可能性99%。
·最佳女演员奖:詹妮弗·劳伦斯(Jennifer Lawrence)(影片《乌云背后的幸福线》)(Silver Linings Playbook),获奖可能性70.7%。
当然,这些数据只是初步预测,David Rothschild说:“我对今年部分奖项的预测很有把握,但预测并非100%,期待奥斯卡颁奖晚会上的最终结果。”
David Rothschild的努力方向是利用大数据改变我们的预测方式,为微软创建更好的产品和服务做贡献。
去年,David Rothschild就曾使用一个通用的数据驱动型模型,正确预测了美国50个州和哥伦比亚特区共计51个行政区中50个行政区的总统大选结果,其预测准确性高于98%。
David Rothschild表示:“我预测奥斯卡金像奖得主的方法与预测其它事情的方法完全相同,其中包括政治。首先关注最有效的数据,然后创建不受任何特别年份结果干扰的统计模型,所有模型都根据历史数据进行测试、校正,我们在建模时很有耐心,确保模型能够正确预测外样本结果,而不仅仅是过去发生的结果。我们创建的模型是用来预测未来的,而不是预测过去的。”
他指出:“科学是相同的,但证明哪些数据最有用却存在千差万别。”
你或许会认为一个能够攻克选票近1.27亿张变化莫测总统大选的预测模型也一定能够在预测不太复杂的事件中轻松获胜,如奥斯卡投票,其投票成员不足6000人,但美国总统大选与奥斯卡投票采用的数据大相径庭。
David Rothschild透露:“我通常关注四个不同类型的数据:投票数据、预测市场数据、基本数据和用户产生的数据。在预测政治时,我采用基础数据如过去的选举结果、义务和经济风向标。通过基础数据建立一个基准,然后转向预测市场数据和投票数据,因为这两个类型的数据吸收并包含了更多选举信息。2012年总统大选预测时,我使用了少量用户产生的数据,但Xbox Live数据对补充重大事件实时分析起了关键作用。”
“预测奥斯卡金像奖花落谁家时不需要投票数据,基本票房回报和电影评级数据也不统计在内。我更关注的是预测市场数据,这是主要因素,同时采用部分用户产生的数据,这有助于理解电影内部和不同类别之间的相关度,例如影片《林肯》会赢得多少个奖项?”David Rothschild说。
David Rothschild强调:“每当我关注一个新领域,我都会认真考虑一些关键事情,确保自己的预测更有意义。”
·首先,我会确定最中肯的预测。至于奥斯卡金像奖得主预测,我关注的是所有24个类别的获胜概率,并会预测各个类别主流电影的总奖项。
·其次,我的所有预测结果会实时更新。从研究观点看,实时更新预测结果至关重要,我们能够获悉最初预测与最终事件之间发生的不同事件的价值。这些事件就是奥斯卡奖项归属的前奏。
·最后,我借助特定领域的历史数据建模,然后通过不断升级模型确保预测的准确度。我还想强调的是,我们所做的一切都是为了尽可能保证领域独立性,确保所有问题的可衡量性。如果该研究能够催生出更高效的预测方法、在众多领域适用于大量问题,将对微软、对学术界和这个世界都有价值。”
上一篇: “胸有成竹” 解读微软大数据平台战略亮点
下一篇: 被看好的10家大数据领域的出色公司