欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

LinkedIn:55人支持2700位员工,2亿用户的大数据分析

程序员文章站 2022-03-04 20:53:16
作为职业社交网站的鼻祖,LinkedIn本质上就是一家通过运营大数据进而产生商业价值企业。从2002年12月创立到2013年初,LinkedIn注册用户已到2亿,平均每秒增加一个新用户,86%的&ld...

作为职业社交网站的鼻祖,LinkedIn本质上就是一家通过运营大数据进而产生商业价值企业。从2002年12月创立到2013年初,LinkedIn注册用户已到2亿,平均每秒增加一个新用户,86%的“财富100强企业”正在使用LinkedIn的付费解决方案,270万个公司主页在此安家落户,用户每年发起超过几十亿次搜索。据悉,在LinkedIn上一季度1.61亿美元营收中,“人才解决方案”的贡献已经超过了一半。而与Facebook和Twitter不同,LinkedIn相对更为低调,但盈利状况却非常不错。日前,CSDN云计算频道记者在2013 Teradata大数据峰会上,专访了LinkedIn商业分析部总监张溪梦(Simon Zhang),深入了解LinkedIn背后的平台技术以及通过大数据分析所带来的商业价值。

数据分析,支撑LinkedIn五大部门

随着企业对大数据分析认识的逐步深入,数据分析已经被提到企业信息构建的议事日程中。但更多企业只是将数据分析作为业务及IT部门的外延或项目管理来定位,鲜有将其作为独立部门设置,更不要说与研发、产品、市尝销售、运营等五大核心部门并列存在。LinkedIn反其道而行之,就这么做了。

LinkedIn:55人支持2700位员工,2亿用户的大数据分析

LinkedIn Corp商业分析部总监张溪梦(Simon Zhang)

问:LinkedIn是如何定义商业分析部门的?

张溪梦:LinkedIn有三大块业务版块,一是人力业务,上个季度财报显示,占营收的53%;;二是市场推广广告,大约占27%;三是高级订阅服务,和LinkedIn的会员有关系,占20%。这三大业务都需要数据分析的支持。我所率领的团队现在55人(目标是60人左右),工作重点是就是对2亿注册用户通过集成数据架构、BI、数据挖掘和分析,直接支持近2700-3000位LinkedIn内部员工(目前LinkedIn大约有3500-4000个员工,这意味着满足70%员工的数据分析)的需求,这些需求覆盖到研发、产品、市场推广、销售和运营等五个主要商业职能部门。

问:为什么这么多内部员工有数据分析的需求?

张溪梦:有人将LinkedIn定义为找工作的平台,但事实上,从LinkedIn的数据来看,只有20%的人是比较活跃地在找工作,大约80%的LinkedIn用户主要的商业目的是同其他公司建立联系/关系。他们希望能够连接世界上所有的专业人士,使工作更为有效率、更富影响力、更成功。这些需求反映到LinkedIn内部,就是五大职业部门都有不同的数据分析需求,且差异很大。

问:构建在数据平台上,LinkedIn的产品如何设计?

张溪梦:对的。LinkedIn本质上就是利用数据产生价值。所有的产品设计原理就是从数据分析中获得”有关人的关系“。举例来看,LinkedIn的会员数据会不断变化,从中显然会产生更多有价值的新产品,比如2008年推出的“您可能认识的人”,以及我们现在开发的“您会感兴趣的工作、您会认识的人、您可能会喜欢看的等”,这些产品会促进业务增长,增强用户粘性。而在此基础上,最核心的业务(占到40%—50%)猎头业务,作为纯数据的业务,目的就是帮助企业找到最适合的、最优秀的人才。在LinkedIn看来,保证公司成功最核心的就是人才,从数据中分析人,帮助这些人才成功,是我们不变的理念。

问:这些新产品从数据逻辑原理上看,基本是相同的,彼此有什么区别么?

张溪梦:数据基本原理都是完全一样的,而本质都是通过数据来发现相关性,进而形成社交网络(Social Network)。之前LinkedIn更多做针对会员的基础性产品,现在数据平台已经建成,并获得利润空间,是时候做更多深度挖掘的工作了。这些产品彼此之间的交叉分析将是新的产品,如通过人与人之间的关系做不同颜色的区隔,形成多样性新分析才更具价值。

技术实用主义:开源,闭源都用

即使是极为追求开源技术的互联网巨头,也是开源技术与闭源方案都用。因为在他们看来,市场上没有好产品就自己研发,然后开源出去给更多人分享;市场上有成熟高效的产品,就立即拿来应用。因为,要实现盈利和生存,“快”是最根本的需求。

问:数据分析平台经历了哪些变迁?

张溪梦:人与人之间的关联不仅是线性增长,更多是几何增长的。比如你认识500人,他们背后各自又有500人的连接,发散下去,三级网络是500×500×500。而要对这些数据进行分析,几年以前,用的是传统数据库,计算一次要几天到一个星期;而后用了Aster Date(Aster当时尚未被Teradata收购)来换算数据流,数据量缩短不少;再到迁移到Teradata大数据分析平台,现在分析比原来基数要大数十倍的数据也仅需要几个小时,速度是原来的几十倍。

问:几天前,我们曾发表文章《Operation InVersion:拯救了LinkedIn的大修项目》提到LinkedIn去掉原来传统数据库,代之以自己开发的Voldermont存储系统和Kafka消息系统。您怎么看?

张溪梦:对,和其他互联网企业一样,LinkedIn也崇尚开源。LinkedIn是最早使用Hadoop的,无论是增加SQL层实现从Hadoop中抓取数据,还是基于Hadoop的开源安全加密方案,LinkedIn几乎都是第一家提出并落地的。工欲善其事,必先利其器。LinkedIn本身也有很多开源工具,但对我们而言,关键是要快。有些业务部门跟我说,不要说BI要2个小时,我们就需要5秒内出结果,甚至有些方案,最好一个按钮就能出来。这类服务,其他企业是根本提供不了的,所以我们都是自己开发。但是另一类,本身就有企业在专业方面做的更好,比如Teradata天睿公司在企业数据仓库(EDW)中确实是最成熟、稳定、速度也是最快的。那为什么不采用呢?在LinkedIn内部大概有25种不同的数据库和数据解决方案,其中60-70%都是内部开发的,但在数据仓库方面,通过6个月时间严格评测最后选定了Teradata。

问:怎么看待开源和闭源之间的关系?

张溪梦:在技术角度来说,开源和闭源之间是有一个平衡的。开源速度快,但不稳定需要优化;闭源稳定,但反应速度比较慢。LinkedIn在互联网里面技术方面是非常前端的,很多需求倒逼升级,甚至有些需求所需要的技术支持在之前并不存在,所以要去开发。比如,以前开发BI解决方案,需要2秒钟内得到分析报告,这在市场中根本不存在。我们团队花了2个月4个人做出来系统,而且是开源的。再举个例子,统计分析有两个知名系统,SAS和R。前者稳定,闭源,价格高昂,功能众多,一般只有大型企业才用得起,而后者是开源的,反应快,不稳定,但在专业领域中很有优势。现在即使在硅谷,也有很多企业都开始尝试R,渐渐从闭源移到开源。原因不在技术,而是在人。开源技术的拥护者都是年轻人,随着年轻人在企业地位的提升,开源技术的采用会更加普遍。这是人和技术之间交互的过程。对开源和闭源方案,我认为就像打高尔夫一样,不同的球杆有不同的作用,开源有开源的作用,闭源有闭源的好处,如何能够最好地实现商业目的这是最重要的。不一定是必须要开源,或者必须要闭源。

问:LinkedIn的开源产品大部分都回馈到社区了?

张溪梦:很多,LinkedIn开源了很多核心的源代码。比如说以前LinkedIn的数据库,中文名字叫“帅”。这个数据库非常快,比一般的快十倍左右。LinkedIn开发出来以后就直接开源了。还有LinkedIn做的DataFu基于Hadoop统计学库,其中有很多Hadoop应用,还有一些“你可能认识的人”的算法,全部开源到Hadoop系统中了。现在很多人都在用。

新模型:从金字塔到菱形

LinkedIn内部数据增长在1000倍左右,但是数据价值并非同数据量增加呈线性对应关系,有时候,甚至是因为数据量增加使得价值降低了。举个例子,数量增大,硬盘增大,存储成本必须增加,但系统速度会变慢,以前一个分析或者需要一天,现在同样的分析则需要一周。但增加的价值不足以抵消成本的增加时,压力会非常明显。所以,LinkedIn构建了一套新模型,从金字塔变成菱形,面积缩小一半,真正将大数据做小,实现团队快速运行。因为对决策团队而言,真正有价值的数据也许只有1K—几十K。用语言描述就是实现“是还是不是,做还是不做,什么时候做,做什么。”

问:从金字塔到菱形,技术上看,如何做到的?

LinkedIn:55人支持2700位员工,2亿用户的大数据分析

张溪梦:LinkedIn以前的整个分析结构是一个金字塔形结构。基础是公司的业务,比如说LinkedIn会员数据是底层基矗其上是LinkedIn产品、市场推广、销售、运营等基本核心业务,再上面分别是产品追踪、数据和数据质量管理、专题分析、商业智能与报告、深度分析,最后才是商业洞察,决策。这个宝塔是一个非常慢的过程,越在底下花的时间越多,但真正有价值的是最后这几个步骤。但是,这显然与LinkedIn快哲学不同。要快,就要改变这个模式,所以我们将大金字塔做成菱形。从数学上看,一个等边三角形,把它变成了一个对等的菱形的话,面积缩小一半。也就是说,用技术把底做小,用机器和科技为人服务,人的智慧主要集中在上面这种结构,比如深入分析、决策支持。这个阶段已经被证明是高效的,我刚开始加入LinkedIn,每天从早晨8:30工作到半夜两三点,一周工作6天,一年只不过出500个报告,支持不到200人,平均每年帮助每人1-2次;但现在,我的团队每人每天就能帮助别人10次。我们的效率提升了500-1000倍,现在团队50多人,可以支持3000人的工作。而下一阶段,将再次变小,将菱形变成球形,用滚雪球的方式带来更大价值。

问:底层分析是系统/机器来做?

张溪梦:是的。数据本身没有意义,有意义的是其中的分析。现在研发、产品、市场推广、销售和运营等部门不需要找分析师,通过系统就可以直接拿到需求报告(PPT格式方案),而团队的工作是分析核心数据,做决策建议。可以这么来定位,就是历史上姜子牙、司马懿、房玄龄这些谋略和决断的支持部门。。

问:国内的技术开发者和国外的技术开发者的区别?

张溪梦:我们在能力、智慧等方面一点都不比海外的顶尖分析师差,相反,在执行上,还非常非常有效率。但唯一的一个差异,我认为是创新性。真正自主研发的创新产品,有些创新实际上就是长期积累下来的灵光一闪。我看到国内很多企业的技术很是优秀,尤其是互联网企业。但现在关键是想不想分享,怎么分享?团结的力量很大,但是封闭、保守永远会被历史淘汰。要通过新技术引领企业先前走,进而成为中国独树一帜的技术的先锋。我的团队现在平均30岁左右,是非常年轻的队伍。包含印度人、中国人、美国人、德国人,全世界各地的人都有。

兴趣+勤奋+长远规划,做喜欢的事情

学之者不如好之者,好之者不如乐之者,兴趣是最好的老师。天津肿瘤医院的外科医生到LinkedIn商业分析部总监,张溪梦一步步地发展,从睡在地上,到睡在箱子上,再到如今睡到大床上。他告诉年轻人,做自己喜欢的事情最重要。

问:从天津肿瘤医院的外科医生到LinkedIn商业分析部总监,您本身的经历就很有故事性。谈谈您对职业变化的感受吧?

张溪梦:学之者不如好之者,好之者不如乐之者,兴趣是最好的老师。作为数据科学家,我见过很多名校毕业的,他们研究物理、化学,想成为数据科学家,我对他们的建议是不要因为现在的数据科学家这个词汇非常热门,就要变成这个产业里的一员,我觉得这样的人往往最后不一定能很成功。想成功的话,需要有强烈的兴趣,非常勤奋,并有长远的目标。讲个小故事,我去美国的时候什么最火爆?护士最火爆,一年就能拿到绿卡,只要进去考个试就有绿卡了。很多人就说,你有医生的背景干脆去考护士吧。我当时就说我不去,因为我不感兴趣,这与长远目标不吻合。结果学护士现在都要等15年才能拿到绿卡,因为学的人太多了,医院都占满了。

问:对年轻的技术人员的建议?

张溪梦:我喜欢计算机、互联网、玩游戏、看杂志。到美国学了MBA,并创业(失败了),再到eBay和LinkedIn。其间开始学数据库和网络编程。一步步,从睡在地上,到睡在箱子上,再到如今睡到大床上。我的经历中得到了很多朋友的帮助,也希望将自己经历进行讲演同大家分享。美国做过相关调查,15%的人喜欢他的工作,85%不喜欢他的工作。现在,我在上海也招了很多人。因为我认为,年轻人应该做自己喜欢做的事情。