秦雯讲大数据:心动.幡动.风动
我想因为今年我觉得是传统媒体,或者说媒体行业发展,中国的媒体行业发展比较特殊的一年。有几个大的市场因素在变化,第一个大的变化是政策因素,应该说政策因素对传统媒体是向好的,在这一块儿在座的所有的各位都比我解读的要深,我就不展开讲了。第二个因素实际上是一个多屏化对媒体带来的多渠道的机会,我觉得这个是越来越成熟了,虽然不是今年出来的,但是我们看这两年随着移动,未来还有越来越多的终端出现的时候,我觉得对媒体本身是机会,第三个因素就是我们今天,下午重点要分享的,就是大数据。所以我今天的这个演讲主题的话,我借用了否较上的一个公案,我们做媒体的都是文化人,应该比我更了解这个故事,佛的《六祖坛经》所讲的,我们在面临技术变化的时候,我们只是顺应客观环境的变化而随波逐流,还是我们要主动的积极的拥抱这样的变化。
风动代表客观上的形势,幡动代表我们企业的行为,心动是什么?心动代表决策者的思想和意识。所以我今天的演讲的话,也是分这三个方面,我们先看一下大势。
大势的话,现在的环境,可能我们每天早上起来,打开媒体,无论是我们自己家做的,还是行业里的其它媒体,无论是通过什么样的终端去分享,或者说去浏览新闻的时候,逃不开的这三个字,或者说这个词,就是大数据。我引用了一个注解,这个注解的话是我上个月在北京的一个行业活动上,360的首席架构师讲的,我觉得非常的精辟。就是说“未来不会用大数据的企业,就像不会用电的企业一样可笑!”这说明大数据对每一个企业,它不是一个辅助性的,或者是包装性的,这样的工具,它是什么呢?它是你将来赖以生存的技术,像电和水一样。
那谈到大数据的话,我还是花一两页PPT讲一下什么是大数据?在这个活动之前,我们和主办方国际在线也一起合作,就今年参会的嘉宾,做了一个小小的问卷调查,然后让嘉宾填写你认为什么是大数据?我看了一下结果,这个答案是五花八门的,占的比例比较大的,一个说大数据就是海量数据,就是规模比较大的数据,还有一个的话是说大数据就是数字化了的信息。所以我想的话,还是有必要稍微就大数据的概念,跟大家做一些分享。这个也是我们一家之言,但是我想对我们所有的媒体,尤其是在做互联网媒体、网络媒体的,可能这样的定义的话是最契合大家的。
所以从我们自己的业务体会来讲的话,我们把大数据定义成全样本、全方位、全过程、全天候的这样一个业务过程记录,这个叫大数据,这个记录收集的前提是互联网。怎么这么讲?我们举一个例子,媒体收集数据比电商还要简单。我们看传统的商业环境,在商场,如果我们想知道一个人。通过我们的广泛推广我们的宣传,然后进到这个商场,在商场里逛来逛去,挑选商品然后购买商品,最后出去。
我们要想知道这样一个人进到商场里的过程,在传统的线下商场,这样的数据是很难收集的,但是如果在互联网上,我们把整个这一系列的过程,把这样的数据收集下来,对互联网平台,我经常说成本,单个用户这样的数据收集成本,几乎可以为零,几乎可以不计。所以在这个意义上,我们可以说每一个互联网应用都是大数据平台。大家平时可能会觉得,我的网站很小,按我们现在大概的水平,一般综合性网站,尤其是传统媒体背景的,一天的流量可能是百万级、千万级,到了一个区域性媒体,一天的流量小的有几万,大的有几十万。我们这样的平台似乎没有大数据,大数据只有BAT(音)三家才有,他们是大数据企业,大数据跟我们没有关系。但是我们来看,如果我们从这样的角度来看大数据,其实只要你的业务是在线的,你就有大数据。我经常说大数据的量大,它不是因,它是果,是因为我们在业务过程当中,能把业务进程的每一个细节数据都收集起来,所以最后它产生的结果是量很大。
一个相对比较小的媒体或者平台,他可能一次收集的量不足够大,但是如果我们去树立这样的意识。我们从我们的产品上线第一天开始,就收集这样的过程数据,一直延续下去,7×24小时的不间断的收集,我们还是可以积累相当大的数据的。大数据,并不在于它的量大,在于我们反映出的细节变化,所以量大不是大数据的比有特征。这是我的观点,所以这是讲大数据的。
那我们来看一下这个用户行为的过程,它的数据长什么样?我们来看几类,这几类都是缔元信公司,我们每天在互联网上通过为客户提供服务收集回来的。
首先第一个,也是最传统的,就是页面访问的数据,我不去解读这一串代码里面的含义,它基本上包含了我们对这个用户所点击的页面,对这个用户的时间等等维度的一些信息,当然这样的数据需要处理以后才可以用。所以大数据的第二步我们是需要数据平台的,这是后话,这是一类。第二类是我们在移动端的所有产品的数据,这就是一条行为数据。
第三类我们看用户在各个页面的位置点击的数据。视频播放,视频播放的数据,我们可以收集到,我们可以采集到,他什么时候停的,是不是有缓冲。
鼠标轨迹,就是用户用鼠标在页面上滑动这个轨迹。当然如果从移动端的话,可能就变成手指的轨迹,我在选哪个,我的手指更多的是停留在什么地方?这个数据更重要是看,我们页面内容,对用户的吸引程度。
最后是广告点击,对吧?这个广告给多少人看了,有多少人点击了,甚至包括如果我们的数据采集范围足够大的话,这个广告被用户看完、点完,进入目标网站他的种种行为,可以把这样的数据串起来分析。
除了这些以外还有更多的数据,我们看一下,基本上只要是我们在线状况的所有交互行为的记录,甚至包括现在的一些可穿戴设备,可能它通过特别的机制,可以记录你的情绪的,可能未来我们每个人的喜怒哀乐这样的情绪很容易的被采集下来。
当然我们展望未来进一步发展,大家可能也听到过这个词,现在有一个词既不叫互联网也不叫移动互联网,也不叫物联网,叫什么?叫万联网。如果在这样的状态下,我们看从现在我们已经不能离开的,变成了我们自己身体一部分的各种手持的移动的终端,到正在流行起来的可穿戴设备,下一步发展会是什么?下一步发展会是汽车也会成为一个上网终端。行业里面有人形容,说特斯拉不是汽车,是安装了四个*的iPad,所以汽车未来可能也会成为上网终端,到我们家居环境的所有的物体,到我们所生活的城市的所有的设施,最后到整个地球。
我们看所有我们人类生存环境的这样的一些设备,就处于在线的状态,当然在这样的一个大的,在线情景下的话,我们说所有的事务都是数据化的,甚至最终也许我们人也会数据化,我们人本身也会成为一个上网终端。那这是技术未来的趋势,我们不在这里做更展开的想象,我是比较相信这个的,这一天终会到来的,就像美国科幻片,最后是机器人把自然人赶在某一个角落,苦苦的挣扎,这个世界被机器人占住了。
这位号称互联网风水先生的老先生,他从十几年前就开始语言技术的改变,之所以十几年后在中国受到重视的话,是因为十几年以前他对技术发展的未来的预见,现在都已经变成现实了。
这一段话是他前几天我在网上看到的,他在斯坦福大学的,又是一个预言,预言技术会进一步怎么改造我们这个社会。这里面我摘了两句话,第一个“未来你不管做什么,你做的都是数据。数据是要流转才能产生价值的。”这个流转是什么?流转就是交换和应用,因为它是要用起来它才会流转。所以这是我们看相对比较超前,也比较精辟的一个总结。
所以在刚才前面讲了,在这样的大的含量下,企业要怎么办?或者说我们现在的网络媒体,我们尤其是传统媒体,在整个转型过程当中,要怎么办?第二个的话我们说是幡动,我们企业要做什么样的事情应对这个挑战?抓住这个机会。我也写了一个注解,这个是我自己总结的,我们自己看这二十年来,工业发展史我们就不去分析了,我们就看这十几年,将近二十年的互联网发展史,每一次的技术革命都让一些既得优势,就是在这个时候成功的企业,重新归零,所有人又站在同一个起跑线上。最后的赢者是什么?是面向未来的人。这句话听起来似乎很抽象很拗口。
我们拿一个例子看一下,这是中国的网络媒体一个演化的过程,我把它分成三个大的阶段。
第一个阶段是图文时代,这个时代的主要特点是图文传播,专业制作和传播,还是像传统媒体一样,我有编辑团队,我有媒体平台,做一对多的单向传播。这个时代最成功的模式就是门户,综合门户,我们说四大门户、五大门户这是最成功的。当然我们传统媒体,我们国内的传统媒体也是在这个时代,进入互联网行业对吧?
第二个阶段我们叫社会化和视频化的阶段,它的特点是用户制作和分享为主。
这个阶段之后就到了我们现在所处的阶段,移动化、自媒体化、电商化。我说自媒体的概念,大家不要说我是说以个人为单位的,或者是逻辑思维叫自媒体,不是的。我们每一个传统媒体,在互联网通过微信、微博这样的社会化平台,在传播我们的时候,我们每一个传统媒体,作为一个拥有品牌标识的这样的媒体,它也是自媒体。这个区别跟1.0时代,以门户的页面模式传播的一个最大的区别,是我们的品牌被保存下来了。实际上在1.0时代,用户通过门户网站去看新闻的时候,他是不关心这条新闻是谁生产的。他在新浪上看到了国际在线的一条新闻,他觉得写的挺好的,他会把这朵花给谁?给新浪的,他会认为新浪上面有好内容,不会认为是国际在线发的。所以我认为传统媒体的品牌是被削减的,大家越来越不知道你是一个媒体,大家会认为新浪是一个媒体。能让我们传统媒体以*品牌的形式,在互联网上做这种传播,或者去运营自己的媒体。所以在这个意义上来讲,社会化平台,其实是救了我们传统媒体。
当然美国的情况跟中国不一样,不像中国综合品牌这么集中,所以很多的传统媒体,在互联网上的认知度还是比较高的,但中国这一点不一样,这是中国的特色。所以我们看整个这将近二十年,看看有哪些逐渐被淘汰了,这个淘汰不是死的概念,要不然就理解错了,所谓的淘汰,它原来可能是市场的影响很大,站在市场的最高点,慢慢的退到了相对比较低的位置。我们看可能比较熟悉的门户网站,像TOM网现在很少有人提起来了,我们也很难听到它的声音了。
这些垂直网站在90年代都是风头慢慢的,到今天我们看已经没有他们的力量了。饰品分享网,我们看土豆网,当然人家跟优酷合并了也挺好的。我们看哪些网站是趁着技术革新,技术变革的大势它们脱颖而出。这个很有意思,百度在抢谁的市场份额?天涯对不对?百度贴吧抢的是天涯的份额。
我们碰到很多传统媒体,或者是网络媒体,现在正在运营的这些传统媒体的网络媒体,很多人很悲观,就觉得现在这个商业性网站,他们的市场影响力,他们的动作这么大,市场上好像没有我们的机会。我们先跳开操作层面的问题,从本质上来讲,每一个技术变革,对每一个人都是有机会的,只不过就是你有没有能力抓住这个机会?
展开讲我们应该怎么应用大数据抓住这个机会的同时,我们先典型的分享三个案例。第一个案例是我们给我们的客户做的,用大数据来预测媒体用户和广告的适配性。我们作为一个媒体平台,我们应该去找什么样的广告,广告效果才好,我们的用户也愿意看。
我举一个例子,我在行业里也讲了有一年多了,但是还是挺有典型意义的。我们这个客户是一个红酒的的零售商。他的销售就是靠在网上做广告推广,带来用户到他的平台上来买红酒,他之前用传统的方法做市场研究,结论是爱喝红酒的人,一般都是什么呢?都是时尚人士,这个结论出来以后,他基本上就是找时尚类网站投广告,这个广告平均的用户转化率是0.53%,在这之前也觉得不错了,说实话确实也不错,因为转化率要到这么高也确实不容易。后来一年多以前,我们给他提供数据挖掘服务,通过对用户行为的挖掘,发现经常买红酒的用户,最爱看的是军事网站,为什么不管,表现出来的相关性就是这样的。这个里面就落到了,很多说大数据的时候,大数据主要是分析相关性,我相信第一步就是这样的,这就是一个相关性典型分析的案例。
当时出来结果客户也半信半疑,我们就说试一下吧,我们把我们的一个客户,媒体客户有军事频道的介绍给这个广告客户,让他把广告投到这个媒体这里。结果让所有的人大跌眼镜,转化率高达9.01%,也就是把他原谅的方案转化率高出了17倍。我们可以通过大数据的挖掘,去预测一个媒体,它和商业客户的适配性,这样来指导媒体去有针对性的开发客户,最大的去发挥媒体的价值,和他自己客户的服务的能力,机遇这个的话,我们就做了一个产品,叫网站用户分析画像,这个稍候会介绍的。这是一个典型的通过大数据挖掘,应用到需体这一端,当然同时也可以帮助广告主更高的找到他的渠道,两端的一个例子。
第二个例子就是我们今天发的报告,今天上午大家开大会的时候,都在桌子上看到了我们这份报告。
这个报告的话我想稍微展开解释一下,它是怎么做出来的?它的数据可靠不可靠?这个报告我们叫大数据分析网站内容的传统影响力,我们是以百度新闻为线索,因为百度收录的新闻是主流的主体的,如果没有被百度收集的话,谈不上这个新闻有影响力度。把带有发稿来源的新闻,把它抓回来,抓回来以后,去对每一个页面,对每一条新闻,用我们的知识库去给它打上标签,它是数一哪一类的?是属于财经的,还是属于港澳台的,还是属于社会新闻,大家看到的等等的,这个是打标签。再叠加上我们平台所覆盖的网站,这些新闻在我们所覆盖的网站所产生的流量。我们的平台因为覆盖了国内的重要的商业媒体网站,大家能数得出来的这些大的媒体网站,他们的数据都在我们的平台上,所以这个浏览量的数据是有代表性的。
通过这样的数据处理以后,我们用了两个指标,这篇文章的转载规模,反映了传播力,这篇文章被用户浏览的数量,反映了这个网站对网民的影响力。这个里面有差别的,我们知道可能在原来传统的报纸的时候,因为没有这个条件和能力去了解,用户把报纸买回去以后,具体看了哪个板块。所以我们通常把我们媒体的业绩,落在哪里?落在发行量是吧?你的发行大的话就是做的好,当然传统的要花钱的话,比其它的也或多或少可以说明这一点。但是因为在互联网上,我们的信息传统是以一条新闻为单位的。所以我们能够知道每条新闻被多少用户看了,所以你的传播量大,并不代表你的效果好。说我这篇文章一发出去,有很多的媒体都转载了,但是用户真的看了吗?不一定。
我给大家举一个例子,这个事情发生的特别早,可能在五六年以上。有一家大的保险公司,他们的高管出了什么事儿?工资事件大家还记得吗?这家保险公司的公关公司是梅涛的朋友,知道我们跟网站的关系好,找我们帮他铲稿,因为是朋友嘛。我们就说你把你想删的内容,把那些链接发过来我们看看,发过来之后当时一共是120条。这120条里面有60%,就是将近70条左右的话,是在我们覆盖的这些网站上有数据的,我们把这60多条放到我们的平台上跑了一下,把它的浏览量跑出来。最后发现PV大于10的链接一共才多少条?一共我记得好像才十几条不到二十条,这个就是所谓的传播量和影响力的区别。当然我们后来反馈给这个公关公司的建议是,其实这个20条你就去处理了,剩下的100条你是不用管的,因为它一共才产生了一到几个PV,尤其是在博客上,那些PV作者多点几个就出来了,他虽然发了但是并不产生影响力。这是篇报告要传递给市场的主要的信息,当然这个报告还是有不足的地方,我们只是在Web1.0的网站上做的一个评价。未来我们希望建立一个模型,从传播量、浏览量,包括在社会化媒体的传播情况,包括在移动端,甚至是网民对这个网站的评论,我们都可以收集回来,建立一个比较完善的模型。因为我们的传统媒体大部分都是做原创内容的,我们的内容在互联网上的传播效果。
第三个案例是我介绍六家,其中有两家是国内的,有四家是美国的。
有些已经比较有年头了,比如说潘多拉,它已经火了很多年了,到现在还是美国最大的音乐网站。因为版权都是唱片公司的,它做了一件事情,就是给每一首歌打了非常细致的标签,而且是不同维度的,把这个标签体系建立起来以后。它就可以根据这个用户的历史行为,他以前爱看什么,做什么?做一些个性化的推荐,让每一个用户用潘多拉的时候,都可以以最快的速度找到自己想要的音乐,听到自己想听的歌。它的业务的本身的核心就干了这样的一件事实,打标签这件事情就是一个大数据处理的关键环节。类似的其实国内已经有了,类似的国内的网易云音乐,国内市场的占有率很高/,他们怎么做的?就是像潘多拉做的。说是网易为什么做云音乐?说是丁磊爱听音乐,但是所有的平台都不能满足他的需求,那我干脆自己做一个吧。这个代表什么呢?就是用户体验的代表,但是丁磊的体验来做的产品,它的评价一定是好的。
再一个案例,大家也都知道,今年沸沸扬扬的今日头条,它自己不生产内容。它的广告词“我们是新闻的搬运工”它不是简单的把新闻扒了下来,一样的做了什么事情?它的底层是依托每一个用户在新浪微博上的行为,它为每一个人建立了个性偏好的一个组合。用今日头条客户端的用户,他的偏好,它给他推送他可能感兴趣的新闻,最后也是落在个性化推荐。就是第一时间让用户,获得他想要的信息,这是今日头条。
那第三个网站,是美国的一个汽车网站TRUECar,这个网站的话非常有意思。整个网站的话,它就做一件事情,它做什么事情?它做价格预测。它管什么呢?管每一个想买车的用户最后一个环节,就是我已经选好我要买哪款车了,最后哪一个4S店,哪一个经销商给的价格最低,就拿着这个价格跟经销商谈,然后把车买了。它是怎么做到可以做价格预测的?它是把全美汽车经销商的销售数据库给买回来,买回来在这个销售数据库上建了一个什么?建了一个数学模型,这个数学模型的话会告诉你,当然前提条件是我在什么地方,我要买什么车。只要用户输入这两个条件,比如说我在洛杉矶的什么区,然后我想买一个帕萨特,输进去以后它会给你一个架构走势的图表,这个图表告诉你,在你所在的这个区域,这一款车的最低价是多少。最早的时候消费者是拿着这个价格,去跟经销商砍价。
后来这个网站上线半年,半年的话,美国的这些经销商,整个汽车行业就被掀翻了,所以精要上就联合起来跟它打仗,跟它讲你不能这样做的,你这样做我们活不下去了。所以半年以后这个网站调整了策略,一个是它不给最低价了,在平均价和最低价之间,随机给出个中间价,因为对于消费者来说能够买到中间价还是不错的,同时满足了消费者的需求,同时把后端跟美国的汽车经销商联系起来了,把用户导给经销商,这个价格用户选中了,就把这个用户带给经销商,让经销商实现销售。它怎么获益?它怎么收钱?它就跟经销商分成,一个消费者只要他买成了,经销商给这个网站200美元,就按销售线索来收费。这个网站在今年8月份上市,在纳斯达克,三个月的时间股票就翻了一倍,就成了今年纳斯的明星。业务的核心是什么?是数据分析。
同样另外一个跟它类似的做房地产信息的网站Zillow,有点类似国内的那个搜房。但是它是怎么起家的?因为它很新,Zillow是把美国全国各地的房产价格收集起来,帮助用户做房子价值评估。他们评估过白宫的价值,好像是3亿美元。每一个消费者,可以想买房的时候,可以通过选中的这个房子,然后用Zillow给的一个叫价值评估器去算一下,他买的这个房子值多少钱。反过来如果我想卖房的,我也一样的用这个价值评估器能知道我的这个房子可以卖多少钱。这样它就把我们看着简单的信息发布,就是我想买房,我想以多少钱卖,都是很粗放的放在网上的,它就把这些信息组织起来了。我们说Zillow和TRUECAR业务核心就是底层的数据库,当然Zillow现在是美国最大的房地产运营商,今年还把第二名给并购了,也是和它一样的是纳斯达克上市公司。
第五个是考拉,考拉是中国国内的一款网络电台,做车载电台服务的一个网站,是一个应用,应该说是一个客户端应用。实际上也很简单,它做的事情跟今日头条,跟这个潘多拉是一样的,就是潘多拉是对音乐做详细的分类,今日头条的话是对新闻内容做详细分类。考拉是对电台节目做详细分类。然后通过详细分类,研究用户和这些内容之间的规律和关系,实现个性化推荐。我们说互联网信息服务的终极形式就是千人千面,我想要什么你就可以给我什么。
最后我讲一下NETFLIX,它是最末端的分发阶段,后来它想要做节目。要往上游,本身这个动向在美国和中国都是一样的,我们现在有很多的节目,网络人。NETFLIX为什么拿出来说,两三年以前他们拍了一个热门的电视剧叫《纸牌屋》,《纸牌屋》在娱乐圈火起来之前,是在大数据圈子里火过的,他们当时号称是用了大数据来做决策的。怎么用的?它是首先决定拍什么的时候,是看了用户的浏览、点播和下载行为的数据,它发现BBC在1990年拍的电视剧就叫《纸牌屋》它要翻开。他发现爱看这个剧的用户,喜欢大卫·芬奇(音)这个导演,就请他来拍。第三个发现爱看这个剧的用户还爱看一个演员的电影,所以就请来这个演员。这个拍完之后,会有多少的受众规模,是不是可以计算出来。最小规模会是什么?会是同时喜欢这三个的,最大规模是所有喜欢这三个的。这个是一个典型的,我这个事儿还没有做呢,我通过数据来预测就可以知道这个效果。果然《纸牌屋》一上线大火。当然在中国火还是有原因的,如果中国没有发禁令还没有现在这么火。所以政策上经常会有出发点和结果不一致的事情。
前面讲的这些例子,我们这个环节讲的是企业应该怎么用数据?我们讲的是怎么用?为什么要用数据?因为我们要解决的问题,这些问题是什么?我们看三个要素,就是所有的互联网上的好的产品都具备这三个要素,所有没做成功的产品,都是因为在这三个方面出了问题。
我在说执行,不是说战略定位,那些就更复杂。首先第一个要素的话,就是这个网站能不能实时相应客户需求,客户提了这个要求,你半个月再找客户,客户都跑了。第三个就是产品的用户体验,用户体验是不是很好?我们这八年来也服务了,一些传统媒体转型做新媒体,我想这个环节是我们很多以前做传统媒体的运营的从业人员,就是所谓的网络媒体,已经不是简单的内容就好行了。然后除了内容好以外,更重要的是你的互联网上,你用来去承载你内容的那个产品,用户操作起来是不是很方便?
我说一个最最简单的例子。这两年我们的关注可能情况有变化,但是这个例子,大家应该会很有感触。我们曾经服务的一些网站,号称有独一无二的内容资源。但是网站做起来以后,用户登录到它的首页,首页打开就要三分钟,这就是一个典型的不考虑用户体验的。这种情况下你内容再好,用户都看不到,所以你不可能把网站做好的,这是一个以前非常普遍的,最典型的。
第三个的话就是过程管理透明化,这个过程管理不是说我们总编辑,或者是网站的总裁要做这个过程管理。所谓的过程管理是指我们的业务过程,具体的业务负责人员,要知道我的业务过程是怎么走过来的?每一个环节的效果是什么样?这个里面的话,可能比较典型的,比如说我们现在很多的网站,也用了流量统计的工具,无论是自己开发的,还是用第三方的,大部分的网站把这个流量统计数据当做一个简单的结果报表。然后只允许网站里面的几个核心人员掌握这个数据,很多一线编辑他发的文章,他发的页面,究竟有多少用户看了,是不知道的。对一线人员是黑箱操作,所以他也不知道应该怎么做才能更好。
所以在这个意义上来讲,我们讲大数据应用,就是过程管理要透明化。这个透明化也不是说对外讲的,我们天天发布要告诉用户,我们网站有多少人来看怎么样的。但是我们在网站内部的每一个岗位的操作人员,对他自己所负责的这块事情,他是需要掌握数据的。
怎么去解决这三个问题?或者是实现这三个要素的话,就是靠大数据。我们下面进入怎么用大数据?这是我们提出来的一站式数据化运营解决方案?
整个解决方案分三层,我们怎么帮助网站?传统媒体在做新媒体的时候,怎么把数据用好,用到位?用数据来解决问题。
第一个是系统层,我们自己的大数据平台,系统层网站是不需要考虑去建系统的。第二层是数据层,数据层是我们会帮助每一个网站去定制它的数据管理系统。再之上的话是应用层,应用称我们又分三层。第一层是做过程的精细化管理。第二层是过程控制,去帮助网站把它自己的每一个环节的价值做到最大化,同时发现的问题去提出策略,怎么去修改。第三层是基于数据的创新应用,之前如果没有数据这个服务我们没有办法做到的,现在基于数据我们可以去做一些创新的产品,然后去提升网民的用户体验。
我展开讲一下,第一层不讲了,因为第一层的话大家只要用就行了。缔元信来讲的话,我们在这个行业已经做了八年了,在没有这个概念的时候,我们就在做大数据。我们看一下定制的网站数据管理系统,每一个网站有自己的数据管理系统,这个怎么实现?
首先是在媒体的各个业务单元,现在领导要讲融合媒体,基本上现在的每一个媒体,就是有多种形态的产品,有网站、客户端、手机站,甚至有些媒体有电视,甚至还有纸质媒体。这些媒体的各个业务单元去采集用户行为数据,然后的话是跟缔元信的公有的数据管理系统打通。打通干两件事情,第一是把我们不同单元的用户,给他识别出来是一个唯一用户。因为一个可能好的媒体,他的用户既用它的网站,又用它的客户端,甚至还看它的报纸,这是好的媒体。所以我们怎么样把不同业务单元的看似是不同的人,表明出来认出它是同一个人,这是一个事情,第二件事情的话,就是因为我们的平台上,可能有这些用户,在我们媒体之外的很多行为。所以我们会把这些信息给补充到网站的数据管理系统里面,就是获得用户的补充信息。最后的话,形成我们网站自己的数据管理系统,基于这个数据管理系统,我们就可以灵活的调用数据,去支持我们的业务。它的格式基本上是以人为核心,能展开这个人我们能够收集到的跟这个人相关的,能够判断他的偏好的信息,做成标签。
我们看实例,这就是一个网站,这个网站一共有153万用户,这些用户的话,从整体上来看,他是一个什么样的信息状况?他的地域分布,他的购买力,他的兴趣,他的年龄,他的职业。我们还会给这些网站的用户赋予兴趣的标签,比如说喜欢体育的,或者是对教育类感兴趣的等等这些,这些就可以用量帮助我们的网站,做内容的精细化调整,和精准营销服务,这是一个。
我们也可以什么呢?我们也可以了解特定用户的情况,我们可以输入条件,比如说我们可以按照某一个特别的应用方向去输入条件,输入以后我们就可以得到一个,满足这个条件的用户一共有多少?我们可以进去看每一个用户的背景情况,就跟一个人的档案似的,这个用户的唯一标识,他的个性偏好,我们就可以很清楚的调用出来。数据管理的过程就是什么?就是一个媒体发现自己的过程。因为发现自己是怎么发现?通过了解其认识,我们服务的对象来发现自己,这是底层的系统。
三层应用我也大概讲一下,第一个是对运行的结果实时监测,我们可以看各种报表来看我们的业务情况。第二层我们看,更重要的可能现在大部分的网站,还是停留在报表阶段,我要知道我大概的个运营的结果情况。实际上数据应用更重要的是什么?更重要的是用数据工作分析问题、发现问题,最后解决问题。这个环节我们看,我们可以做哪些事情?这是对一个网站,用户进来以后的路径做分析。这个分析的话,让我们发现,我们网站的页面链接之间的结构是不是合理的?
进一步的话,我们可以对页面的板块进行分析,看看哪一个板块的导流的效果很好,一样的可以通过首页或者是正尾页分析。还有我们可以对用户点击效果分析,我们通过改版以前发现问题,通过改版以后看我们的改版效果。在营销这个环节的话,我们可以对我们的用户,进行分群画像,然后来做预判,我们这样的频道或者我们这个内容,适合推什么样的广告?再根据这个去发展广告主。我们看一下例子,这是全站的。
对这个网站来讲,最后我们给的结论它的营销策划方向是什么样的?它适合的目标广告主是谁?我们也可以倒过来找,说我现在就想要时尚类的人群,他的表现是什么样的?我们可以去设定条件查某一类特定人群,分析出来以后,告诉时尚类人群,在这个网站适合的广告是服饰。进一步我们还可以对网站的广告位,去做细致的用户画像分析。最后来给出,对这样的广告主,你的广告位资源应该怎么来组合?调配策略是什么。除了营销以外,网站也会做很多的市场推广,市场推广这个环节,我们一样有数据的分析工具去帮助优化推广环节。
最后我们看一下基于数据的创新应用,第三个层次,或者是更高级的大数据应用。我们看这个例子,会有越来越多的创新应用会产生,我们看一下实际例子,这个是我们跟新浪汽车做的,我们叫数据新闻生成器。
大家知道这两年大数据在媒体端的热点,就是做数据新闻,怎么做?这是我们给新浪提供的生成器。大家看一下结果,很快的就某一个主题,把这个数据调出来,形成一个可传播的新闻稿。我们昨天看我们市场部的小编辑,已经把艾伯拉(音)的新闻稿做出来了。
更典型的应用是个性推荐。因为我那两天在找互联网公司的财报,它给我推荐的一个是跟IT相关,另外一个是跟财报相关,还是比较准的。我们把公有的缔元信数据,输送给新浪,支持好它做这样的推荐。这是新浪博客在我的微博上推的广告,它判断我的购买力还可以,给我推的是奢侈品牌。底层基于什么?基于新浪,和我们输送给新浪,对我这个人偏好的判断。
最后几分钟讲一下最重要的,我们刚才讲了,风动幡动,但是都不如心动。心动是指我们作为媒体的决策人,所应该具有的思想意识就叫心动,如果我们要改变结果首先要改变战略,但是如果要改变战略,首先要改变思想。通常说不破不立,我们要破的是什么?我们要立的是什么?我归纳出四个重要的因素,前两个因素跟网站的运营,和网站本身对互联网的理解相关,后两个因素的话是对网站、数据、大数据的认识相关。
第一个要破的是把我们自己定位成内容生产者,变成我们是提*品和服务的,就是一定要有产品和服务意识。第二个的话,就是网站运营从项目思维,要转变成系统思维,所有的互联网产品都是一个有自有生态系统。所以一定要有顶层设计,而不仅仅是说把这事做了。第三个要破的就是把数据当工具来看,要怎么样?要有数据信仰。就跟缔元信一样,我们对我们招两的每一个新员工说,如果你相信数据可以改变世界,你适合在我们公司,如果你不相信,你最好找别的工作。因为要有数据信仰,我们才会在战略上重视数据,才会在组织架构上保证让数据真正的在你的业务当中去运行起来。
比如说数据部门,很多媒体的数据部门是一个职能部门,是一个辅助性部门,跟办公室行政部门没有区别。但是数据部门一定要是战略部门,数据的应用一定要是一把手工程。这个很难,但是必须做。
我们用一个典型的例子,我们现在看BAT三家,现在在大数据领域谁走的最快?毋庸置疑是阿里,为什么?是因为阿里在战略部门,重视把自己各个业务单元的数据,收集回来形成了统一的数据管理平台,我们看其它两家,目前数据各自为战,自己的数据还是一个孤岛状态。很快大家可以看到,在这个方向上,已经会被拉开距离。
最后就是数据开放的意识,我们说数据是资产,我们自己的平台上只能起到保值的作用,但是起不到增值的作用。
要讲一些数据之外的事情,新媒体成功,其实有比数据更重要的事情,就是你的战略。功夫在诗外,讲的战略。第二个是十年磨一剑,讲的是对过程要也积累。最后一个就是数据。
我以这个模型为结束,客户很多的业务问题,其实不是操作层面的问题,而是自己在战略和策略上还没有想清楚的问题。所以我们根据我们对互联网运营的经验,把一个网站一个如果你做成功,我们拉了出来列了一个清单。我经常说,如果一个网站能够把这个表格上的所有问题都解决了,有答案,你这个网站没有理由不成功。这个PPT可以供大家参考,如果有问题的话,我们也可以以其它的形式再做交流。
我很愿意把我的价值给行业里发挥出来,今天占用的时间确实太长了,不好意思,但是我还是希望我的分享对大家有益。
上一篇: Node.js Koa2使用JWT进行鉴权的方法示例
下一篇: JS中如何获取url中的某个参数的值