什么是大数据?初步认识大数据(2)
企业数据资产
有了大数据的光环,有了从数据中挖掘商业价值的方法和工具之后,那些原本存放在服务器上平淡无奇的陈年旧数一夜之间身价倍增。按照世界经济论坛报告的看法,“大数据为新财富,价值堪比石油"。《大数据时代》一书的作者维克托则乐观地预测,数据列人企业资产负债表只是时间问题。
本质上,任何企业在生产活动中都会产生数据,数据都有分析的价值。我们来看看典型的运营商会产生哪些数据
图1.2是典型的运营商产生的数据,从下到上分为如下几类。
network raw data:电信网络里任何一个呼叫或者上网行为都会引起电信设备之间的数据进行交换,这个数据就是网络底数据。
user plane detail record data:从网络原始数据里面提取出来的用户行为数据,如打电话数据、上网行为等。
mr/chr type data:无线测量数据、呼叫历史记录单据数据。用户的位置信息就是从mr/chr 数据里面通过算法得出的。
signaling data:信令数据。电信网络分控制面、数据面、用户面。在控制面上设备之间相互按照协议协商通信的数据叫信令数据。
crm billing:电信设备厂商登记的开户信息、账单信息。
上面的划分是从非常专业化的角度进行的,其实通俗一点可以简单归类为设备数据和用户数据两类。设备数据用来分析设备的正常与否,用于设备的维护、规划等。用户数据包括如下数据。
位置数据:无线是用一个个蜂窝来划分区域的,一个蜂窝叫一个小区,所以只要电话在线,就需要注册到一个个小区中去,知道了小区就知道了用户所在的位置。通过小区切换就能计算出用户移动的轨迹,这就是用户的位置数据
上网数据:用户通过运营商的设备上网,所有的行为数据都可以被记录下来,如上了什么网站、网速是多少、上了多长时间。这些通过通信协议的包头就可以获取。如果继续分析内容,就可以获取更多的数据,就可以完全知道用户在干什么。
note . in a typical network of、30m subscribers and the data flow around it引s.
mr℃hr measurement repott/cail history data generated during calls
图1.2
用户兴趣数据:通过用户的上网记录,就可以衍生出用户的兴趣爱好、常上什么网站、最近关注什么东西等。
通信数据和社交数据:例如,用户给谁打了电话、打了多长时间、给谁发了短信,这些信息都可以被记录下来。通过电话联系又可以衍生出用户的社交关系数据,如和谁是熟人、常联系谁等。
身份信息数据:用户到运营商开户,用户的所有个人信息就被运营商记录下来,包括姓名、年龄、身份证号码等。而且这些数据是由人工采集的,准确度远高于互联网用户自己注册的。
用户金融数据:如用户的电话、网络缴费记录,是否经常欠费等,可用于进行个人信用分析。
由此可以看出,运营商拥有从底层的设备数据到上层用户的行为数据,而且通常是全网的数据,因此可以说抱着数据的“金矿",是其他厂商所无法媲美的。
大数据挑战
大数据发展到现在,有了一定的技术和商业积累,但是还有很多难题等待解答,最典型的就是成本、实时性、安全等方面的挑战。
成本挑战
运营商普遍受到腾讯、阿里巴巴等互联网厂商的ott应用的挤压,面临着管道转型、利润下降的风险。而运营商的数据量巨大,以pb为基本单位的数据,处理起来需要巨大的投人。外部商业环境和内部规模的双重挤压,对大数据平台提出了很高的性能和成本要求。
实时性挑战
如果从广义的数据质量角度看,随着时间的推移,数据的价值将逐渐降低,时间越久的数据,价值越低。举个例子,一家商场需要对当前在商场内的客户做一个推荐活动。但是端到端采集和处理数据的时间过长,最后推荐平台得到的用户列表都是过期的列表,列表上的名单可能已经不在商场内,而新到的用户还没有更新到名单中来,所以很多业务对大数据平台端到端的实时性提出了很高的要求。
安全挑战
安全挑战体现在两个方面:
一方面是在技术上,随着https的推广应用,数据在传输过程中采用管理加密的方式,运营商作为管道获取数据的难度变得越来越大。
另一方面是在法理上,用户的哪些数据是可以获取的、哪些是不允许读取的,始终存在侵犯用户隐私的法律风险 。