互联网平台的“算法”被神化了
作者对互联网平台的“算法”作用进行分析,带我们正确看待算法。
在互联网行业,尤其是在投资人心目中,往往存在一种“算法迷信”或曰“技术迷信”:某公司的广告变现做得好,一定是因为有算法;某公司的云计算业务开展的好,也是因为有算法;某公司的游戏用户留存率高,还是因为有算法……
所以,一切用户问题和变现问题都可以通过“技术中台”解决,从google或facebook挖到的“算法专家”可以构成互联网行业的核心竞争力。与此相对,如果一项业务出了问题,无论是用户增长环节还是商业化环节出了问题,毫无疑问可以归咎于算法不行。
遗憾的是,上述观点是错误的。算法当然很重要。可是如果没有数据,你拿什么去“算”呢?如果把google、facebook、字节跳动或阿里巴巴的算法团队划拨给某个路人甲,难道路人甲就可以“冷启动”搞出一个全世界最厉害的互联网平台吗?哪怕是没有接触过互联网行业的人,也不会相信这种疯话——没有数据的算法,就像没有球员的足球战术,是不可能执行的。
互联网平台的算法被严重神化了。算法固然重要,但我们可以毫不客气地说:算法是可以在短期内砸钱搞出来的,但是数据无法在短期内搞出来;头部互联网公司在算法上不会有什么代差,但是在数据丰富程度和可用性方面可能产生代差(注:并不意味着一定有代差)。
在互联网时代,数据堪称土地、劳动、资本后的第四大生产要素,尽管我们常常忽略它,但其重要意义非同一般。
更深一步,人工智能比拼的并不是算法,而是数据,“得数据者得天下,得数据者得算法”。互联网巨头在过去十几年呼风唤雨、取得了巨大的收入和利润,不仅仅是因为它们掌握了用户流量入口,更是因为它们掌握了基于用户行为的海量数据。
(就像在《命运石之门》当中,发明时间机器不仅需要天才黑客桥田至,更需要狂气科学家凤凰院凶真、天才少女牧濑红莉栖等一整套实验室体系的配合。)
为什么抖音如此适合游戏及电商广告投放?广告算法好,确实是一个核心因素。例如,抖音对游戏广告主甚至可以以“单个付费用户”为单位结算,甚至可以约定“若用户流失则退款”;抖音、快手均可以将广告主的效果需求(cpa/roi等)高效地“翻译”成前台cpm需求,快速而灵活地响应广告主的需求。但是,在“算法好”的背后,更深刻的原因是数据积累庞大、可信度高:
抖音通过用户的滑动、点赞、留言、转发,以及平均观看时长,获得了大量宝贵的用户偏好数据,从而能够贴上各种数据标签。与传统图文信息流相比,短视频给用户贴上数据标签的效率要高得多。
抖音从2016年开始就建立了一个庞大的内容生态,各式各样的内容非常健全,从而可以让海量内容与海量用户之间互动,产生天量级的数据。其实,抖音在内容运营方面的功力极深,只是往往被人忽视。
反观还处在发展初期的微信视频号,与抖音的差距与其说在于“算法技术”,还不如说在于内容生态——目前视频号的原生创作者很少,mcn生态尚未建立,垂类内容运营也不发达(仅有直播取得了一些成果)。因为内容池太浅,所以无法与用户产生有意义的互动,导致数据深度和可信度不足。要解决问题,恰恰要依靠良好的社区运营和激励机制,去吸引更多、更有特色的创作者持续产生内容,而不是像某些人认为的那样,把推荐算法调教好就够了。
在中国这个特殊的(也是全球第二大的)互联网市场,各大平台对于用户数据的掌握程度,还存在两个微妙的因素:
首先,国内安卓平台对用户隐私的保护程度很低,从而允许互联网公司无节制地攫取数据。
国内80%以上的用户使用安卓手机,国产安卓生态的用户保护机制几乎形同虚设——如果你禁止某个安卓app读取你的通讯录、调用你的相册和摄像头,很可能你就无法完成安装,也无法使用大部分功能。
在这方面,苹果手机堪称模范,甚至允许你像隐形人一样使用各大app,让对方完全无法辨认你的身份;所以很多互联网平台都讨厌苹果手机。你在媒体经常能看到关于苹果手机如何差劲的黑文,不一定是其他手机厂商发的,很有可能是恼羞成怒的互联网平台发的。
很多安卓app会定期截取用户屏幕、读取手机相册、读取输入法数据,甚至在用户不知情的情况下操纵摄像头——还记得当年震惊全网的“手机摄像头无声无息升起事件”,以及刚刚发生的“豆瓣删除用户相册图片”事件吗?因为平台可以肆无忌惮地收集用户数据,当然就可以很精准地贴上用户标签。与其说这是算法的功劳,还不如说是侵犯用户隐私的“功劳”。当然,在国内主管部门强调用户信息保护的今天,这一套玩法已经接近了极限。
其次,互联网平台内部各端、各业务的数据需要打通,否则就无法形成合力。
为什么字节跳动的算法推荐精准?因为它内部各个产品、各项业务的数据是高度分享的。字节跳动的广告销售人员,可以迅速了解到抖音的某个趋势、某个流量洼地,然后立即对广告主进行推荐,这样广告主当然有投放的积极性。与其说字节跳动是依靠算法崛起的,还不如说是依靠打通技术和销售崛起的,以前的百度也是这样。
这就是近年来互联网公司纷纷强调“数据中台”的原因:与其说“数据中台”象征着一种技术创新,倒不如说它在削平内部山头,把各部门的数据资源最大限度地打通。
不过,数据中台未必总能达到目的,因为规矩是人定的。对于历史悠久、内部利益分配复杂的互联网巨头而言,要各个山头分享数据是一个很艰难的任务。所以,像字节跳动、拼多多这样历史较短的公司往往能较好地打通数据,而历史悠久的公司做不到。
讽刺的是,2021年以来,监管部门加强了对平台商家获得用户数据的限制,却反而造成了平台对数据控制权的加强:
例如,对淘宝商家来说,以前可以获得某个具体买家的电话、地址、身份信息,从而可以进行内部分析,还可以主动通过短信等方式拉回流。2021年8月以来,淘宝商家看到的数据都被加密了(其他各大电商平台也在跟进),只有快递员还掌握用户的真实联系方式。虽然这样确实保护了用户隐私,却也造成商家完全受制于平台,很难绕开平台运营私域流量了。
这里就涉及到一个平台经济监管的核心问题:我们对互联网平台加强控制,归根结底是为了有益于用户,同时也应当有利于中小商家。有些事情可能对用户有利,却也加强了平台在产业链上下游的话语权,从而使它们相对于中小企业居于更强势的地位。如何避免这种现象出现?对于全世界的监管者来讲,都需要摸着石头过河。
在本文的最后,我们想集中探讨一下5g时代对数据的影响。坦白说,如果5g普及,互联网巨头对用户数据的控制可能提上一个新的台阶:
首先,数据维度大幅提升,5g将推动万物互联,5g时代连接数量达100万/平方公里(即每平方公里有100万对数据连接存在),是4g时代的100倍。根据at&t的数据,2020年全球物联网的连接数达到500亿,其中物与物(设备对设备)的连接数占比80%。
一方面,联网设备数增加,将线上和线下数据进一步打通;另一方面,物物之间的连接数大幅提升,数据的维度和延续性都有了实质提升。
其次,5g基站将实现更加精准定位。由于5g穿透性不如4g,需要更多的5g基站完成原来4g信号塔的作用。在基站密度一定情况下,5g可以将基站定位精度提升至1m,并且更多5g基站在室内,室内定位效果也将增强。
届时,互联网巨头念念不忘的“对用户位置的精确掌控”将成为现实,达到厘米级的掌控也不是不可能的。
可想而知,进入5g时代,互联网行业的海量数据会变成天量数据,数据的精准度、可用性、灵活性也会大幅提升。举两个很简单的例子:
如果智能家居真能成为主流,就无异于在移动互联网之外再造了一个“家居互联网”,用户从早上起床到晚上就寝,乃至睡眠中产生的数据,均将被纳入互联网平台的体系。
如果5g基站定位精度达到1米以内,传说中的“室内lbs服务”将成为现实,线下零售商将能够绘制出精准的“零售热力图”,从而进行一系列o2o数据合作(例如通过用户的行动细节向其推送商品)。
由此产生的用户隐私等法律、道德问题也是不容忽视的。这也就是各国监管部门要赶在5g大规模商用的初期,纷纷加强对平台经济的控制、对用户个人隐私的保护的原因。
当然,按照某些互联网平台的观点,中国用户不重视个人隐私,更愿意牺牲个人数据主导权去换取生活便利,所以主管部门也不应该严厉限制对用户数据的刺探和使用。你赞成吗?反正我不赞成。