欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

挖掘网络数据的时代开始了

程序员文章站 2022-09-25 17:21:01
    2012年的美国大选,奥巴马终于如愿以偿击败罗姆尼。奥巴马在2008年的第一次当选,让人们意识到了Facebook的的力量;而这一次,则更进一步,军功章当有&...

    2012年的美国大选,奥巴马终于如愿以偿击败罗姆尼。奥巴马在2008年的第一次当选,让人们意识到了Facebook的的力量;而这一次,则更进一步,军功章当有“数据挖掘”的一份。

    数据挖掘在奥巴马竞选的方方面面都起到了重要的作用。比如广告宣传:奥巴马的团队通过对目标选民进行数据建模去找到影响她们的广告路径。比如针对迈阿密戴德郡的35岁以下女性,奥巴马竞选团队在一些电视肥皂剧动漫家节目中购买了广告,以往,竞选广告通常出现在本地新闻节目中。通过精准的广告投放,奥巴马竞选团队比在芝加哥的购买效率比2008的竞选提升了14%,确保了以最低成本最高效的找到目标选民。

    不仅如此,奥巴马的团队通过对各州选民投票倾向样本数据的建模,每晚模拟6.6万次大选,并于每天上午获得结果,了解在这些州胜出的可能性,从而针对性地分配资源。”事实上,不仅仅奥巴马的竞选团队这么干,有一个工程师用MatLab写了一个简单的程序,通过模拟各州民调的数据,预测奥巴马会胜出。他发现奥巴马赢的路径比罗姆尼多一倍以上。最后的大选结果显示,在51个州的预测中,这个工程师正确了50个州。

    数据挖掘从来没有如此让人着迷过。实际上数据挖掘一直以来都是传统行业必胜客宅急送改善业绩的法宝;只是今天由于云计算和社交媒体的发展,使得各类数据的打通成为可能。所以我们有了一个新的名词,叫大数据。

    在今年Garter发布的IT技术成熟度曲线中,可以明显看出大数据已经成为云计算之后的另一个热门技术。而已去年和前年Garter所发布的IT技术成熟度曲线图,可以很明显感觉到大数据的发展速度非常之快。

    在国内,大数据也开始逐渐成为投资届关注的热点。最先受到关注的是社交网络数据挖掘;如微博的数据。新浪微博基金,浙报集团的传媒梦工场都在微博的数据挖掘领域进行投资。可以说社交网络数据挖掘是大数据投资的试验田。这里简单介绍一个案例知微。

    知微,通过数据挖掘算法,可以向用户提供一条微博的传播途径、关键节点、层次和人群等信息,并以可视化的方式直观生动地展示出来。这样客户就知道一条肯德基网上订餐微博传播几千次的重要节点在哪里;这样就很容易找到关键节点。很明显,一条科技信息和一条时尚信息的关键传播节点是肯定大相径庭的。和知微类似的还包括独到,都是提供可视化的微博数据分析工具。

挖掘网络数据的时代开始了

    社会化网络数据挖掘是国内大数据领域最先崛起的一个分支,因为社会化网络数据有天然的优势,拥有用户贡献的海量数据,同时是相对结构化有信息意义的数据,数据挖掘将从这里开始孕育,接下来和传统行业相关的数据挖掘将是未来新的创业和投资方向。

    大数据的发展也一定上会侵犯着个人的隐私;比如美国的大超市Target通过分析女性客户购买记录,“猜出”哪些是孕妇。发现女性客户会在怀孕四个月左右,大量购买无香味乳液。由此挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。推算出预产期后,就能抢先一步,将孕妇装、婴儿床等折扣券寄给客户。虽然客户可以享受方便和惊喜,但不免也会感到个人信息被商业掌控的恐怖。想象个人的社交媒体数据,网购数据,麦当劳网上订餐消费数据,搜索数据都被整合,那你所有的行为都可以被预测。这的确让人担心,但这也是人们在享受数据带来的好处的同时,也必须付出放弃的隐私代价。无论如何,数据的年代已经来到,不管你准没准备好。