驾驭大数据集体骑马舞

程序员文章站 2024-02-05 12:41:16

创投认为口碑营销及舆情监测仅仅是大数据这块“大蛋糕”最先启动的譬如谷歌眼镜中的个人数据采集、大数据与3D打印的“人机互动”都极具钱景微博草根大号直呼：跟...

创投认为口碑营销及舆情监测仅仅是大数据这块“大蛋糕”最先启动的

譬如谷歌眼镜中的个人数据采集、大数据与3D打印的“人机互动”都极具钱景

微博草根大号直呼：跟着真正的“大数据”大佬走才能有肉吃

“一支身价四千万的棒球队如何能和一个一亿四千万的球队相抗衡，而且还能赢得一个亿？”在影片《点球成金》中，布拉德·皮特所饰演的美国奥克兰运动家棒球队总经理正是用电脑程序分析比赛数据，使得一支仅仅属于“三流”之列的棒球队取得了一场又一场的胜利，甚至有能力与大名鼎鼎的纽约扬基队竞争市常

这部2012年曾红极一时的影片，获得了包括最佳影片在内的六项奥斯卡提名，而对互联网业界而言，它用了一种相当极端的“屌丝逆袭上位”的戏码预示着一个新时代的来临。

驾驭大数据集体骑马舞

在此次采访中，不少投资人都不约而同地向南都记者表示，2013年将是大数据领域的投资布局之年。同时，他们也相信，在这一领域内，极有可能诞生出下一个Google或Facebook。

大号转身肉在哪

说一部电影开启了一个新的信息时代的来临，听起来或许多少有些夸张，但“大数据”概念的走热，正在变得越来越毋庸置疑。

曾任雅虎中国总经理、新浪微博社区委员会专家成员的知名IT评论人谢文向南都记者预言，“1998年雅虎上市。八年后，2004年谷歌上市。又八年后，2012年Facebook上市。再过八年，2020年还将诞生一家全新的互联网巨头，而它极有可能是一家大数据公司。”

或许正是在这样的大势所趋下，2012年年底，当新浪微博面向企业微博新增以付费微博营销为主打的“微任务”功能，对此前寄生在新浪微博平台上的草根微博营销公司进行规范整顿时，不少人甚至喊出了“草根大号已死，大数据分析营销当道”的口号。

在接受南都记者采访时，手握“全球时尚”、“欧美街拍”、“精选语录”等多个草根大号实际控制权的酒红冰蓝(网名)说：“第一次听到有人喊这样的口号，我心里直想笑，因为事实根本不是这样。”

据酒红冰蓝介绍，新浪微博于2012年10月成立自媒体协会，由新浪COO杜红担任协会理事长，酒红冰蓝和另一位草根大号控制者伊光旭担任联席秘书长。“从此，我们就不再是什么草根了，我们有了一个新名字———自媒体。”能够摘掉“草根”的帽子，变身为“媒体”，酒红冰蓝很是高兴。

而对新浪来说，此举相当于是对之前自发生长起来的微博营销公司(或个人)进行了一次“招安”，通过微任务的官方平台，对草根大号们转发广告信息的渠道、定价、信息真实性与否进行统一管理。

“所以，对我们来说，规范调整之后，不是生意越来越难做了，反而是变得越来越公平透明了。”酒红冰蓝对南都记者说道，“我们公司刚刚开过年会，我可以告诉你，根据我们销售部门的预计，明年公司的收入会比今年翻上一番。”

不过，自称对技术一窍不通的酒红冰蓝也向南都记者坦言，尽管自己对时下时兴的“大数据”概念知之甚少，但针对现在有不少草根营销企业已开始转战微信等其他社交平台，她坚持认为，新浪微博上的营销生态已发展多年，更具有相对成熟的变现能力，仍将成为她的着力重点。同时，她也相信，只有跟着真正掌握着“大量数据”的大佬走，才可能有肉吃。

在这一点上，酒红冰蓝并没有说错。2011年从澳洲回国，创立基于大数据方式的口碑及舆情分析公司陕西识代运筹信息科技有限公司(下简称识代运筹)创始人李哲君也向南都记者表示，目前对于在大数据领域创业的小公司来说，最大的障碍即来自于信息获取渠道的不通畅。

谢文再三向南都记者强调，在未来，互联网上的海量数据一定是开放的，数据的获取能力不会成为大数据公司长期发展的竞争壁垒。但在眼下，李哲君却只能通过与大佬们合作获得官方高权限接口，运用拥有自主知识产权的分布式数据采集工具，以及与第三方公司合作，来获取尽可能全的数据。

而另一家利用大数据方式进行慢性病管理的初创企业时云医疗科技(上海)有限公司(下简称时云医疗)的联合创始人郭辉，则向南都记者表示，除了会引进由国外*时间生物学实验室收集了半个多世纪的数据和分析模型之外，他们也打算逐步积累属于自己的数据库。

数据大未必是大数据

不过，先等等。究竟什么是大数据？数据大就算是大数据了吗？究竟多大才算是大数据呢？

面对这些问题，行业专家、投资人和创业者，几乎每一个人都有一套自己的理解和答案。

谢文在去年5月撰写的有关大数据时代系列博文之一《数据大未必是大数据》中指出，网络业中一个公司是否能称得起拥有大数据，至少要从三个维度考量，即数据规模、数据结构和数据相关性。

换句话说，如果一个网站拥有一亿用户，但他们在上面只干同一类的事情，譬如浏览新闻，买东西，或是玩游戏，那么由此产生的数据量虽然不小，但结构简单，重复性高，分析起来相对比较容易，只需根据用户背景和使用习惯进行分组归类即可，那根本称不上是大数据。

同理，如果一个网站上的十种产品和服务，彼此之间相互孤立，造成同一个用户的十种网络行为的数据无法有效地整合在一起，或者需要付出高昂的整合成本，从而降低了数据的可挖掘性，那么无论数据量多大，结构多复杂，也同样形成不了大数据。

上一篇：百度将与长安合作开展无人车高速公路测试

下一篇：让数字“说话”：大数据创业也疯狂！

驾驭大数据 集体骑马舞