LinkedIn张溪梦的分析哲学:大数据要做小做快
LinkedIn的目标,是联结世界上所有的专业人士,让他们能够更有效率,更成功。目前,LinkedIn在世界范围内的用户已增长到2亿多,86%的财富100强企业正在使用LinkedIn的付费解决方案。在LinkedIn上一季度的1.61亿美元营收中,“人才解决方案”的贡献超过了一半。
这样的成绩背后,是张溪梦以不足60人的商业分析团队,通过集成数据架构、BI、数据挖掘和分析,支持70%现有的4000名LinkedIn内部员工,涵盖了研发、产品、市尝销售和运营等五个主要商业职能部门,包括公司的三大业务分支。
有人力资源专家甚至声称,LinkedIn Recruiter付费招聘服务(LinkedIn的旗舰产品, “人才解决方案”业务的核心)是“一枚核弹”,将凭借庞大的数据库,在今后的招聘市场获得无可企及的地位。
LinkedIn如何做到这一点?张溪梦抽丝剥茧,深入介绍了LinkedIn的分析哲学及其背后的技术支撑。
1 |
LinkedIn Corp商业分析部总监张溪梦(Simon Zhang)
从金字塔到菱形的分析哲学
分析工作的任务,张溪梦认为是“谋断”。李世民痛失魏征那段“以铜为镜”的名言不再赘述,在张溪梦看来,谋断就在于根据过去和现在定制未来,对象当然就是数据。
LinkedIn的三种主要的数据类别,是用户行为数据,用户身份特征数据,以及职业网络数据。如果说2亿用户的数据已经不足以让现在的存储硬件和数据库感到压力,那么相互关联的职业网络数据,绝对是当之无愧的大数据量。
“兵在乎精,不在乎多”,“兵贵速,不贵久!”古中华的兵家圭臬,是张溪梦的大数据智慧所在。他提出了两个准则,大数据要做小,做快,因为速度决定价值与成败。
数据分析的传统金字塔结构,从数据及数据质量管理,先生成商业智能和报表,再进行专门的分析,以及深度分析,最后形成商业洞察,但张溪梦表示,正如伟大的画家不会借他人之手描绘心中的美景,分析师不需要借助现成的报表来创造未来,也就是说,在LinkedIn,商业智能报表要放在分析层之上。
但改造之后的金字塔结构,仍然存在两大问题,首先是功能层之间脱节,更可怕的是,底层占用了90%的资源。张溪梦的做法,对底层“动手术”,让金字塔结构“进化”成菱形结构,当金字塔底座实现了小,整个分析流程的面积减少一半,资源的效率获得100%的提高,而很大的数据变成很小的数据,处理速度也得到质的飞跃。
1 |
LinkedIn并没有就此满足,再次把菱形做为新的金字塔“进化”,如此反复,至到不能再“小”,进入第二阶段的进化,进行球形的应用滚雪球的球形,会形成更大的价值环。
1 |
张溪梦对这套哲学的功效十分欣喜:“我刚开始加入LinkedIn,每天从早晨8:30工作到半夜两三点,一年却只不过出500个报告,支持不到200人;但现在,我的团队每人每天就能帮助别人10次。”
然而,问题来了:今天没有价值的数据,谁能保证在明天没有价值呢?信息的不对称造成的后果,很多企业都深有体会,因此,尽可能地搜集数据,是很多专家的忠告,这也是大数据之所以“大”的原因之一。
“情报永远是不够的。”张溪梦回答说,数据量在增加,也意味着存储和分析成本的增加,分析的速度的下降,随之而来的,往往是价值(ROI)在下降。
为何选择Teradata
LinkedIn的分析哲学得以贯彻实施,IT的力量当然功不可没。张溪梦表示,科技是LinkedIn拓展分析规模的基石。在LinkedIn,Hadoop、Aster Data和Teradata是商业分析部赖以运作的三大平台。
1 |
LinkedIn与Teradata的合作,其实是从Aster Data开始,后者现在已被Teradata收购。张溪梦介绍,在LinkedIn的基于社交网络的分析模型中,基于传统的关系型数据库进行分析,多级关系网络的计算,一次就需要好几天甚至一个星期才能完成,后来采用了Aster Data,分析效率获得极大的提升,目前的分析时间已经缩短至几个小时。
在尽管LinkedIn在开源技术上花费了很多精力,并自主研发出了多种开源技术,但在数据分析层面,张溪梦更钟情于采用稳定的商业软件。他表示,开源技术更新快、功能多,也意味着不稳定;闭源反应慢,但同时也是稳定的代名词。
张溪梦说,LinkedIn不是一家数据库公司,采用现有的成熟的技术更有利于公司的商业推进速度,而Teradata是最成熟的企业数据仓库供应商,其解决方案的优越性已经得到市场的验证。相比之下,采用Hadoop平台的LinkedIn,还需要在中间增加了一个安全层,以保护会员的隐私和利益。
张溪梦的理由,可以概括为专业,权威。事实上,更深层次的是二者对专业的理解不谋而合。张溪梦希望把大数据做小做快,Teradata大中华区总裁辛儿伦恰恰不断地强调无须贪多,而是要学会舍弃数据,只分析有用的数据。Teradata的数据分析方法是I(整合)、D(探索)、A(行动)。Aster Data就是Teradata的数据探索平台,其设计的理念,就是要让不同层次需求的人都能进行各种分析,轻松探索大数据的价值,提供了SQL、MapReduce、统计、图形、路径、时间和地理查询等工具,正适合LinkedIn的需求。Teradata平台则主要用于支持BI。
忠告“准数据科学家”
在这个被称为“大数据时代”的时代,一个叫做数据科学家(Data Scientist)的新职业被认为即将抢手,包括EMC、微软、Teradata等公司都在谈数据科学家,认为是大数据时代的数据分析的必然需要,甚至有评论称,数据科学家是二十一世纪“最性感”的职业。
而在LinkedIn的模式中,数据科学家的精准判断尤为重要确认哪些是最有价值的数据,不是单靠软件平台就可以实现的。张溪梦表示,最好的分析师要比PM更了解产品,要比Marketing更了解市场,要深刻理解软硬件之间的关系……
毫不夸张地说,成为LinkedIn的分析师也是一种挑战。所以,张溪梦的“兵在乎精,不在乎多”的另一种含义,也是分析团队的“精”。
那么,要如何应对未来的挑战进入这个“性感”的职业?张溪梦的忠告是,不要因为Data Scientist是当前的热门职业而选择这个行当,你的长远目标更重要。他最强调的一点就是兴趣,认为兴趣会驱动你找到变得专业的方法。
翻开张溪梦的履历,我们会发现一件有趣的事情:他曾经是一名神经外科医生。“我是一名称职的医生,但我更享受数字,更享受逻辑。”张溪梦说。