欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

看阿里“玩”大数据

程序员文章站 2022-03-14 18:48:14
当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河。500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度。当大数据开启一个...

当大数据开启一个时代时,拥有海量交易数据的阿里巴巴,已经认识到这是一座富矿,并开始摸着石头过河。

500多年前哥伦布做环球航行时,最想得到的就是航海地图,要不然他不会把美洲大陆当成印度。

当大数据开启一个时代时,阿里巴巴集团(下称阿里)从海量交易数据中挖掘有价值的数据,犹如在大海中航行,马云的鸿鹄之志也是那张航海地图。只是哥伦布的目的地是印度,马云的目标是大数据。

马云宣称平台、金融和数据是阿里未来的三大战略方向。其实,“阿里未来本质上是一个数据公司”,电商越来越离不开数据,金融的核心也是数据。阿里设立首席数据官,并把首席数据官陆兆禧升任CEO,传闻将收购移动APP数据公司友盟等,这些都显示马云的大数据战略萌动生芽。

在几乎全球所有公司都还徘徊在大数据门前时,马云纵然有大数据的宏韬伟略,在具体操作层面也只能摸着石头过河。

完成25个事业部战略调整后,阿里巴巴成立了数据委员会,由淘宝网商业智能部负责人车品觉出任首任会长。这位曾经在微软、ebay出任产品经理,在支付宝、淘宝主管数据业务的香港人,大半生都痴迷于数据迷宫。

看阿里“玩”大数据

“我之所以来淘宝就是喜欢它的数据,就希望好好梳理下数据。”车品觉谈到数据时异常兴奋,在接受《中国经济和信息化》记者3个小时采访后,他还要给同事做有关大数据的培训。此时,已经是晚上10点多。

车品觉是马云大数据战略棋局中已经过了河的卒子,他肩负着为阿里寻找开启大数据之门钥匙的重任。马云给了他异常宽松的工作环境,甚至没有具体的KPI考核。在接受《中国经济和信息化》记者采访时,他对所谓大数据赢利模式之类的问题并不看重:“阿里跟别人不一样的地方就是愿意尝试不同的产品,连领导都不能控制手下人到底玩什么。一帮很爱数据的人玩一堆产品出来,偶尔能出现如阿里金融这样的产品就很好,允许他们玩就是允许差异化,做数据如果急于现在赚钱就会失去机会。”

“玩数据”其实并没有这么简单,特别是车品觉出任阿里数据委员会的安全责任人之后,他每时每刻都处在忐忑不安中。他认为,今后一段时间,数据质量、数据安全以及数据化运营将是阿里必须翻越的三座“大山”。

从“淘数据”起步

2003年的淘宝还是个“小朋友”,一个不起眼的购物平台,远不如当时的易趣(eBay)名气大,甚至还有人预言淘宝会在18个月内夭折。

18个月后,淘宝让预言夭折了,淘宝交易量几乎呈指数增长,在2006年上半年注册用户数超过了易趣。从某种程度上看,易趣的存在是淘宝数据业务起步的外部动力。为了与易趣的销售额对比,淘宝开始搜集每天的成交额、用户访问数等数据,从起步就增强了对数据的粘性。

淘宝严格意义上的第一个数据产品是“淘数据”,说白了这就是一个经营数据报表。“每个公司都需要了解经营业务状况,淘宝业务大了也需要看经营状况做未来决策,‘淘数据’就是为内部报表服务的一个工具,大约是淘宝成立两年后的2005年开发的。”淘宝商业智能部一名元老级数据分析师告诉《中国经济和信息化》记者。

这一年,淘宝迎来第一个数据分析师。半年后,淘宝建立第一批数据分析师队伍,并成立第一个数据部门——商业智能部(BI)。他们每天的工作就是把日成交额、访问用户数等数据统计之后放入报表,让淘宝决策层能够清楚了解业务状况。

此时的淘宝不再是一个卖家挂货、买家购物的购物平台,开始关注数据产生出来的意想不到的价值。当然,马云当时还不至于把数据提升到公司战略高度,但他敏锐地发现,“数据非常重要,未来的世界是数据的世界”。

外界广为流传这样一个故事:2008年,中国众多企业受国际金融危机重创,而阿里根据买家询盘数急剧下滑,及时向中小制造商提供预警信息,为应对国际金融危机做好准备。虽然车品觉把这次经济预警归结为偶然事件,但阿里确实在数据分析中尝到了甜头。

随着数据越来越多,原来的处理方式已不能进一步扩展,淘宝在用传统数据库方法处理数据问题时遇到了麻烦。

“我们早上9点上班要看数据,但传统数据处理技术很难在9点之前让所有人看到结果,数据处理的时间成本非常高。再这样发展下去,就扛不住了。”前述分析师告诉《中国经济和信息化》记者。

这一问题触发了淘宝第一次技术层面的架构变迁,把以Oracle为主的传统数据库迁到了大数据技术Hadoop数据库上,正式开启阿里的大数据实践应用。

两条腿走路

淘宝的数据视野并没有停留在公司内部决策上,2009年数据应用与开发开始走向外部,让淘宝商户分享数据。

在这一背景下,淘宝商业智能部的一部分人“被赶了出来”,开发淘宝商户能分享的数据产品。这是淘宝的一次大胆尝试,进行技术架构调整后,为挖掘更多有价值的数据腾挪出了空间,让数据变成产品为公司挣钱。当然,此时淘宝并不是从挣钱的角度开发数据产品,而是想整合数据为商户提供优质服务。

2010年3月,淘宝“数据魔方”产品正式对外发布。麦包包箱包在线商城是首先接触并尝到“数据魔方”甜头的商家。麦包包运营总监毕志鹏称:“在‘数据魔方’提供的数据支撑下,麦包包能及时准确把握市场动态,销售业绩迅速提升。”随着淘宝数据正式对外开放,越来越多商家、企业能分享淘宝的海量数据,并获得有价值的数据支撑。

几乎同时,淘宝内部对数据的渴求也日益强烈。商业智能部留下的团队继续为公司内部提供数据支撑。此时“淘数据”开始从单纯的报表系统扩展为内部数据产品的统称。2009年4月和12月,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。一年后,为了配合淘宝的大促销活动,便于及时查看实时数据,这个团队又开发了“活动直播间”。为了让卖家更好地运营,2011年2月,“卖家云图”出世。2个月后,“页面点击”诞生,它可以监控每个页面的每个位置,用不同的数字和颜色标注出页面点击情况。

此时的车品觉在阿里已经拥有良好口碑,“要数据找品觉”成为惯例,很多管理层都习惯了车品觉提供的数据。

时任阿里首席人力资源官的彭蕾找到车品觉说:“马云觉得该考虑一下如何从数据运营转到运营数据了,你回去好好想想这个事情。”

“黄金策”是车品觉较为得意的一个能称得上运营的数据产品。车品觉带领团队处理了1亿多活跃的消费者数据后,拿出500个变量,只要2秒钟就能计算出结果。“黄金策”最早在支付宝成型,现在在与淘宝数据对接。

“支付宝发展大数据的目的,跟淘宝系有点偏差。支付宝更多是为内部服务,淘宝和天猫更多强调商业化。”车品觉如是说。2012年年中,车品觉来到了淘宝。时任淘宝网CEO的姜鹏邀请车品觉同时兼任淘宝商业智能部负责人,之后车品觉又成了阿里巴巴集团层面数据委员会的首任会长。

车品觉很看重淘宝的数据,因为淘宝数据更丰富,不仅有业务数据(交易行为数据),还有过程数据(如一个买家在某个页面上停留了多久等)。在他看来,淘宝的这些数据就是SNS关系数据,这种数据脉络看起来很像社会关系,并非一般B2C模式可以比较,这对他特别有吸引力,套用马云的话这叫做生态链。

来到淘宝后,车品觉相继开发了两款产品——“无量神针”和“类目360”。通过“无量神针”,淘宝的管理者可以辨别萌芽状态的可疑行为,迅速做出决策。而“类目360”则把淘宝的类目做得非常细,如果销售增长了10%,可以知道是哪一个类目,哪一部分用户对营收增长贡献大,能评估集团内部哪些人工作有效率,哪些部门不给力,让管理层2秒钟就知道如何决策。

之后,淘宝有了自己的“黄金策”,锁定用户群后,可以立即对这些用户进行针对性营销,营销后的效果又会回到“黄金策”上,形成一个闭环。

比车品觉团队开发“黄金策”稍晚,淘宝对外团队研发了“淘宝指数”,这是一款中国消费者行为数据的研究平台。无论是淘宝卖家还是媒体从业者、市场研究人员,都可以利用“淘宝指数”了解淘宝搜索热点、查询成交走势、定位消费人群、研究细分市常

在这段时期,阿里一直在用两条腿走路,对外团队为外部服务,商业智能部服务于内部。

2012年阿里又推出了“聚石塔”产品,这是阿里首次联合全集团大数据力量打造的一款大数据商用产品,可提供数据存储、数据计算两类服务。

“聚石塔”平台没有辜负马云的期望。据天猫CEO张勇透露,“双11”狂欢节大促销当天,“聚石塔”处理的订单超过天猫总量的20%,比平时增长20倍。

“聚石塔”上的客户不仅包括淘宝上的商家,也包括淘宝外的电子商务企业。在淘宝和天猫平台上,有ERP系统(企业资源计划系统)的商家可以直接找天猫对接“聚石塔”,没有ERP系统的商家,可以找提供第三方软件服务的电子商务服务企业,通过他们的ERP服务接入“聚石塔”服务。

数据平台战略

大数据部门该放在运营团队还是技术团队?这是车品觉经常被其他公司询问的一句话。听到这个问题时,车品觉就觉得“这些人没戏了”,因为其实他们并不重视大数据战略。

在车品觉看来,一个企业如果真想做好大数据,大数据必须成为CEO直接领导的一级战略部门。如果数据部门想要在结构庞杂的企业内部提高地位,数据产品一定要刺激决策部门和业务部门,直至促使他们对前端的业务环节做出调整。

2013年1月,阿里调整为25个事业部,CEO陆兆禧分管的数据平台事业部团队正是“数据魔方”衍生出来的团队。而在数据平台事业部很得力的员工空无(淘宝员工的化名)就是当年做“数据魔方”走出来的人。

在数据战略架构上,阿里早在3年前就开始布局。2010年阿里推出一淘网,目标是做一家全网购物搜索引擎。2011年淘宝收购CNZZ网络技术服务公司,第二年CNZZ推出“云推荐”内容推荐引擎。淘宝联盟在今年重启“阿里妈妈”品牌名,从以服务淘宝系商家为主转为面向全网所有广告主。阿里与新浪微博仍在进一步谈判,近期传闻阿里将收购移动开发者服务平台友盟等。

早在阿里酝酿设立首席数据官岗位(CDO)前,马云就意识到数据产品要建在一个平台上才有更大的价值。2012年7月,阿里委任陆兆禧为首席数据官职务,负责全面推进阿里“数据分享平台”战略。

事实上,马云希望建立囊括所有与消费相关的数据平台,包括实体类商品消费数据、服务类商品消费数据、金融相关数据等,再以自己的数据平台为中心建立数据交易中心。也就是说,谁想获得数据,上这个平台来,要么用货币来换,要么用数据来换。

阿里金融是大数据衍生产品开发的一个范例,通过分析淘宝、天猫、支付宝、B2B上商家的各种数据,阿里打造了一个信贷工厂,为平台上的卖家提供小额信贷服务。

马云这步棋下得很准,小微企业的资金困境影响着企业的发展。目前,中国有近4200万家小微企业,在影响企业发展壮大的因素中,资金占96%,银行考虑到风险太大,很少向小微企业贷款。那么,阿里金融如何通过大数据规避风险呢?

除了容易标准化的交易数据外,非结构性数据也一并被录入到数据库中,类似卖家和买家的聊天记录、评价、店铺信用等。然后,阿里金融通过数学模型,对上述数据分析处理,就能自动确定贷款申请人的贷款限额。发放贷款以后,阿里通过实时监测贷款商家的交易、退货、评分等经营情况,能方便了解客户还款能力,一旦客户交易情况下滑,系统会自动发出预警。

这就是阿里金融打造的一个纯粹基于互联网信用小额信贷的平台。截至2012年底,阿里金融累计服务小微企业已经超过20万家。同年11月初,阿里金融的坏账率仅为0.9%,低于很多银行。

让爱数据的人玩起来

“今年你给我的绩效是什么?”

“你开心就好。”

这是阿里数据委员会成立后,车品觉和姜鹏的一次对话。不过,车品觉想开心并不容易。他的担心更多于开心。

车品觉的担心是有理由的。阿里数据委员会是一个虚拟的组织,虚拟如何管理实体?“有点打太极,四两拨千斤的感觉。”车品觉苦笑称。

2013年在香港特区过新年的时候,车品觉想方设法让自己尽量休息。他知道今年数据委员会的工作肯定会千头万绪,他要筹建数据挖掘工程师、分析师等协会,为大数据业务培养足够的人才。他告诉记者:“数据人才是最大的竞争力。我今天看大数据的时候,是如何让他们玩出来,而不是把人管理起来。”

在阿里的大数据团队中,有这样几批人:决策分析师、业务分析师、数据挖掘工程师、数据科学家、数据产品经理、数据开发师、基于数据的前端开发工程师、数据底层平台搭建师。车品觉的想法是让爱数据的人玩起来:“我们相信只要这样走下去,会有一帮懂数据的人玩出来。我们要找到出路,但是不一定现在就能明确看到出路。这也是为什么我们邀请数据科学家来,很多事情不能说今天就要效益,偶尔能产生阿里金融这样的产品就很好。”

车品觉对数据分析师的考核有自己的标准。每个月的最后一周,数据分析师都有一场考试。如果分析师的观点能在月度经营分析报告里出现,就说明这个分析师的分析有价值。如果在报告提交给管理层讨论的时候,某个分析师的观点能改变业务部门领导的看法,那就得到3.75分。更进一步,如果分析师的观点能让公司领导接受,并最终促进相关业务的调整,那就是4分。4分几乎是一般数据分析师能得到的最高分。

“数据的数据”

一次大数据会议讨论中,车品觉向姜鹏提了这样一个问题:做数据的人,为什么没有数据的数据呢?正是这次提问,淘宝开始着手建立“数据的数据”,即数据地图。“每一个数据都由很多个数据产生,数据的数据是让我们看见今天数据做得怎么样,建立数据地图,以追溯到数据的源头,提高数据的质量和价值。”车品觉说。

保障数据质量要在大数据源头获取方式上下功夫,从源头上保证数据的准确度。“就好比去挖掘一个信用卡持有人的消费记录,必须清楚这些消费行为是不是都来自持卡人,有没有可能部分是持卡人老婆去消费的?”车品觉表示,要尽可能保证数据的精确度,不然会导致数据质量失准。

大数据跟个人最为密切的关系是对隐私的可能侵入,数据安全是阿里大数据面前的第二座大山,也是第二大核心。“有些人不知道数据的危险性,但我们做数据的人深知其中的利害。数据安全得不到保障,早晚会出事。”车品觉说,为了数据安全,他在支付宝里可能得罪了不少人,“但个人隐私绝对不能泄露,这是底线”。

目前在阿里内部,淘宝系的淘宝、天猫和一淘,在数据上是共享的,B2B的数据则是独立的。支付宝有金融牌照,法律要求数据必须独立,如果集团某个部门需要一些数据,查看数据必须提出权限申请。

事实上,车品觉刚开始做安全的时候也失败过。那时候,他第一次建支付宝的安全架构,直接套用了银行的一套物联网安全架构,“我想定义所有数据的层,做完就进行不下去了。”在支付宝第二次做安全的时候,他采用case by case(案例法)这种方法,然后成功了。现在在淘宝,他也使用了案例法,慢慢积累安全经验。在他看来,安全是开放的前提,如果国家未来想到管理数据,现在阿里的经验将很有参考价值。

为了保证数据安全,车品觉的团队在研究用户行为时,框定的最低数据量是1000人用户群的购物行为,不能再少于这个人数,针对某个具体用户的数据分析是不允许的。车品觉说:“阿里对数据的挖掘处理有一套自律准则,包括后台数据的查看,一些明细是看不到的,这样封闭的目的在于维护用户的隐私,同时也防止数据滥用。”

阿里内部还专门成立了小组,数据的公开与否主要由他们进行判断。评判小组没有一个具体统一的标准,数据该不该公开、公开到什么程度,都以每个案例本身为依据。

到今天为止,数据委员会里的安全小组跟数据质量小组已经成立,相比年初时,车品觉的心沉下来一点了。“数据开放现在太早了,度很难把握。”车品觉说,在某种程度上,数据开放考验的是数据人的良心和经验。

阿里还在路上。车品觉和同事现在所走的路是一条很新的路,可参照的东西不多,从国外公司来看,拥有阿里这个数据量级的公司并不多。在大数据的路上,阿里需要做的还有很多。