《京东技术解密》不得不说之"用户画像" 博客分类: 原创 大数据BI京东大数据用户画像
正文:
试读第17章节“少数派报告,大数据洞察未来”是真正吸引我的,因为过去6年BI的工作经历,对数据仓库,数据分析多少了解一些。现如今叫“大数据”,听起来高大上,我还是愿意叫"经营分析系统",简称“经分”,叫起来更亲切一些。
经分系统非常复杂,详细说起来估计10本“京东技术”也写不完。其中“用户画像”一节我逐字看一遍。书中做为“创新应用”来介绍用户画像,其实这个并不新鲜,很多企业都在做,但画像的丰满度和分析应用效果各不相同。
“用户画像”:是一幅全方位,多纬度的用户“肖像画”,是用户的特征库,用技术语言来说:就是给用户打标签,标签越丰富,越清晰越好。
比如:近3个月的平均每单的订单额,订单次数,在线时长等。
比如:价格敏感度,是否经常投诉,对物流速度的等待耐心等等。
我们当然期望了解用户的方方面面,难免会让用户有“暴露隐私”的感觉。但所有这些特征数据都来自“正常途径” ,即“正常的合理的接触点”,比如用户的线上操作,用户的投诉咨询,送货员对用户的感观评价(谈吐,衣着等),或者跨企业合作,交换用户特征(如QQ的好友数等)。
上面说到的“接触点”,是所有能直接,间接接触到用户,并且容易收集到用户信息的环节。
呵呵,细思极恐吧,可能你昨天刚买个充气娃娃,今天就被女神约出去吃饭啦,这不是巧合哦。
一个简单的画像库就会有几百个特征标签,并且这些特征有固定的,有定期变化的,还有随时变化的。这些标签会增加(来自更多的接触点数据,更多的划分维度) ,会减少(去除一些无用标签,或者过期标签)。书中没有讲京东的用户特征数据是如何存储的。但显然画像数据不适合用传统的行数据库来存储,列数据库或者K-V数据库更适合。
再者强调极高的并发查询性能。
对聚合统计性能要求较高。
支持多途径(多数据源)的数据更新。
存储是为了查询,但目前的多维分析工具基本都是固定维度分析,并不适合对原始画像(维度多变)进行分析,需要把原始画像转化成固定维度画像,然后再装入Cube,灵活性和及时性都不好。京东的Cube是什么样子,也不知道书中会不会讲,这个是比较期待的。
后面讲到精准营销,既然讲“精准”, 这个当然依赖于准确的用户定位。核心仍然是“用户画像”数据库。我觉得画像数据是企业的核心资产,会随着企业经营而越来越有价值,甚至直接当成企业的一种商品出售。