陈尚义:对搜索企业来说提升用户体验是大数据最主要价值
嘉宾介绍:陈尚义,百度技术委员会理事长,国家科技重大专项03专项总体组专家,中国电子学会常务理事,云计算发展与政策论坛副理事长,云技术与产业联盟常务理事。兼任北京航空航天大学教授、合肥工业大学教授、中科院研究生院硕士生导师,IEEE-CS授权培训机构高级讲师。
财经网(博客,微博):大数据的概念,其实不是单纯这三个字的字面组合,它是完全全新一个大数据的定义,您是怎么来理解大数据的?
陈尚义:像你刚才说的一样,大数据现在已经引起了工业界和学术界高度重视,有人试图给它下一个定义。但是从我们的工作实践来讲,我个人的体会,大数据应该具备几个非常关键的要素才可以称为“大数据”。第一,毫无疑问,它必须要大,要有一定的规模,但是(究竟多达规模才称得上大)业界对这一点没有共同的认识;第二,它的复杂性。复杂性就意味着结构化和非结构化数据的大量并存,而且更多的是非结构化的数据;第三,它的动态变化性,也是构成大数据的必要要素,动态变化性表现在数据的持续变化。还有一个,业界普遍认为价值稀疏的问题,就像沙子一样,里头有很少量的金,大数据里头真正有价值的数据确实是不多的。这就是构成大数据全部四个要素。我们也认同这四个要素,但是作为搜索引擎公司,我们的数据规模应该是业界最大的,数据变化、复杂性、价值的稀疏性等等,这四个要素我们都全部具备。除了这个之外,其实百度的数据还有更多的特点,业务对它的要求更多、更严格,包括对它的一致性要求等等,使得我们的数据比传统意义上的大数据还要复杂。
财经网:为什么说百度的数据更复杂,具体复杂在哪?
陈尚义:首先对数据处理的时效性要求非常高,比如像新闻搜索、新词学习,这些功能的推出,早了不行,比如新词的学习,早了它没有这个词。大家都用这个词的时候,这个词才变成了热词,比如说我在搜索框里面输入最近发生的一些热门的事件,早了这个事件没有发生,这个新的词我不会提示你;晚了也不行,如果说这个时间拖得太久了的话,那个词已经不再热了,就是说对数据处理的时效要求很高。
第二,一致性要求。面对大量的数据,有些一致性要求极高,有些一致性要求不那么高。比方说百度因为有做推广服务,客户的数据,那里头就是一些钱的数据,这个要求是一致性极高的。另外有些数据,比方说搜索,在搜索结果里头,有些(次要的)内容没有完全出来,这样用户也是能够接受的,所以从这里讲,数据的一致性要求不是那么强,所以,形成了数据一致性要求的强弱反差,有的很高,有的不高。所有这些因素使得百度的数据,跟传统意义上或者大家目前讨论的大数据相比,百度的数据更复杂,这还不包括百度数据的规模是罕见的。
财经网:海量的。
陈尚义:是海量的,是比传统行业,甚至比互联网行业的其他企业数据规模还大。
财经网:但是海量的另一面其实也是我们可发掘的内容就更多,这其实也是一个双面的东西。
陈尚义:对。数据小了就没什么价值了,数据越大,发现价值的可能性就越多。
财经网:大数据究竟为我们的行业带来的怎样的变化和影响?
陈尚义:大数据对技术或产业带来了很多的变革。首先它对技术方面的变革,它直接拉动了数据中心规模不断的增长。过去的数据量小,数据中心的规模也小,现在大数据年代,数据的中心规模会越来越大。它表面上表现的是大,其实不仅是大,背后蕴藏了很多技术的变革,比方说出于成本的考虑,数据中心越大,希望它能节能降耗,希望服务器的密度越高越好,希望服务器的部署的速度越快越好,所有的这些技术都在不断的挑战新的极限,创造一个又一个新的突破,这是大数据所带来的必然结果。同时,大数据对我们的学术研究,或者是技术的开发也带来了一些新的变革。过去在学术研究方面,我们在技术领域里面,更多的是依靠模型的方法,现在有大量的数据,我们可以借用这个数据,基于统计的方法,比如说语音识别、机器翻译这样的领域里面,可以更加容易的突破传统技术所存在的困难,在大数据年代有望取得新的进展。
同时,大数据年代,大数据对商业模式也产生了影响。大数据年代,数据的拥有方,就是运营商,它具有大量的用户行为习惯的各种数据,开发者他了解用户的需求,他有开发能力,在大数据年代,运营商和开发者互利共赢的模式,已经取得了一定的共识。可以说大数据对社会生活、经济、技术全方位形成影响。
财经网:刚才您也提到了大数据现在在百度也是有了很多的应用,其实我们也知道奥巴马的团队也是在拉选票的过程中也是应用很多大数据方面的成果,对于这个大数据应用的广泛性已经是很受认可了,就您所了解的,包括可能在咱们企业之中,或者企业之外的,您觉得现在大数据已经应用到了什么样的程度,或者是普及到了什么样的程度?
陈尚义:程度不好说,但我更想说的是大数据同其他任何事物一样,它本身是中性的,看谁在利用,就产生什么样的效果。大选的时候,他就利用大数据做对大选有所帮助的事情。在其他领域里面,比如在交通、能源这些领域,对大数据的利用,可以使交通变得更加智能,我早上一出门就规划出行路线,或者以节省时间为目的,或者以节省能源为目的。
我还听说过一个例子,一家能源公司拥有丰富的资料,这些资料是以图纸的形式存在的,他们要找石油或者是矿藏,通过对这些数据的加工整理和分析利用,应能准确地找到矿藏的所在地、油井的所在地,公司内部产生很剧烈的反应,有人说自己能利用大数据,自己发现这个金矿、油矿,属于我自己开采的。另外有人说你自己处理不了,应该交给社会上去做。这个例子说明大数据促成了一种开放的心态,让全社会来参与。
有的用来找油、有的用来规划路线,有的为了提高生活质量、生活品质,有些人用作大选,还有些人用来做一些不正当的行为。比如说可以通过你留下的各种各样的用户行为的数据,发现你运动的轨迹,然后推测你是一个什么样的人,你是什么样的背景,你有什么样的爱好,你家庭背景怎么样,这样就很容易造成个人隐私的泄露,大数据的利用看你怎么去用,可以从提高整生活品质,提高经济效率的目的出发来利用大数据,反过来也可以被一些不正当的手段所利用。
财经网:其实现在大数据已经成为一个概念性的东西,行业的广度已经覆盖到了一定程度,因为它不局限在企业本身应用,它可以应用到各个行业和领域。
陈尚义:因为大数据是必然的,过去我们受制于存储能力、计算能力还有人们采集数据的能力,各种各样的能力限制,所以我们没有办法用大数据,像过去我们对数据进行人工录入,录入的数据是经过好几道处理的数据,之后进去的都是精华的数据了,所以用传统的数据库就能够存储起来了,这是数据很小量的一部分,其实实际上有很多大量的数据,图片、音频、视频的材料,还有各种各样的图纸,比方说医院里头的各种各样的胶片,随着设备的廉价和设备的先进性提高,还有传输的速度提高、存储的能力提升,以及包括存储的成本降低等因素,都促成了大数据时代的到来。大家都知道,每18个月存储性能提高一倍,同时成本降低一半,所以这种趋势是非常明显,大数据铺天盖地而来,它不限于IT企业,也不限于企业内部,各行各业都是一样的,全社会都是一样的。
财经网:刚才您也谈到了对于产品本身的应用,比如说搜索上,其他的领域有没有一些拓展?
陈尚义:我们也分析行业的趋势发展,然后形成发展报告,供我们的客户,甚至供全社会免费下载使用,比如我们一直在发布一个报告《移动互联网趋势发展报告》,这是根据我们后台的数据统计,形成的一个报告,给移动互联网年代的开发者去参考,比如说哪款手机现在正在流行,哪种操作系统现在占比例多大等等。
财经网:目前我们有没有应用大数据来挖掘一些可以创新的点,或者是一些盈利的点,因为前一段时间也有一些新闻来报道,现在京东也在运用大数据的基础上,它开始做客户的信贷之类这样一些业务,它是发掘出来一些新的盈利点,或者是一些创新的点,这方面百度目前有没有做,或者是说未来会不会做?
陈尚义:百度现在是以搜索为主营业务的公司,我们一直在很专注地做一件事情,那就是持续不断地提高用户体验,用户的搜索体验。去年我们也推出了百度的个人首页,个人首页是什么意思呢?就是说你不用搜索,就能够得到你想要的结果,用我们的话讲叫“不搜即得”。就是在搜索框里面,你还没有输入,就得到想要的结果,就是不搜即得,因为百度知道了你过去对什么东西感兴趣,从后台的一些数据记录和日志里头知道,通过挖掘分析这些数据知道用户对什么样的东西感兴趣,然后实行了自动的推送。
财经网:推荐算法
陈尚义:对,推荐算法。这是我们在大数据利用方面很好的一个例子。另外一个例子,我们在机器翻译和语音识别上面,我们也利用了大数据的基础,通过统计的方法,不断的提高翻译的准确率,不断的提高语音的识别准确率,这个也给用户带来新的体验。现在大家都说,尤其在移动互联网手机这个年代,由于它键盘输入的限制,通过语音这样跟它交流起来可能更加容易,这个方面我们的成果应该达到了业界最先进的水平,翻译和识别的准确率都达到了业界最先进的水平。
财经网:您刚才谈到的主要是用户体验的方面,对于百度这样的搜索企业来说,大数据它的价值,您觉得最大的价值是在用户体验这方面吗?
陈尚义:用户体验是最主要的方面,包括我们说推广外界说是广告,我们这个专业术语叫搜索推广,或者是搜索营销,我们的客户在我们的搜索结果里头发现推广信息,这个推广信息,要是做到好的话,用户是喜欢的,而不是讨厌这些广告,这一点也依靠大数据,就是要提高广告或是搜索推广跟搜索内容的相关性,这个背后是大数据的技术,就是要不断学习用户的兴趣点在什么地方,不断地学习你这次搜索与什么广告相关,如果真正做到这一点,用户不仅不反感广告,而且是喜欢的。这点来讲,也可以说是用户的搜索体验,同时也是提高百度收入的一个方法。
财经网:也是相辅相成的。
陈尚义:对,相辅相成的。我们只有不断的提高搜索体验,我们才能够取得相应的经济回报。
财经网:刚才您也谈到了很多百度在大数据的挖掘和应用,在您的切身感受之中,在挖掘的过程中,或者是应用的过程中,都遇到了哪些问题,对您印象比较深刻的?
陈尚义:我们在不断地应对这种大数据带来的挑战,其中的第一个挑战就是存储,做搜索引擎的公司,要把全网的数据 “爬”过来,存到我们的数据中心里头,这个工作不仅是单纯地给它存起来,而且有很强的时间要求,你要不断的更新。要是更新不快,我们提供的搜索结果就是过时的,用户也不高兴,这个体验不好。我们要在非常有限的时间里头把这些数据爬过来,存起来,要更新,这是我们不断遇到的挑战。相对应的就是我们的存储体系也要不断更新,或者是不断的创新,才能够满足刚才我讲的,数据量大和快速更新的挑战。实际上我们公司从成立以来,不断的受到这种挑战,很多东西业界没有给你参考的,也无法给你提供参考,更无法给你提供经验和教训,因为别人没有遇到过这种架势。
财经网:第一个吃螃蟹的人。
陈尚义:对,因为互联网公司在不断接受一些新的挑战,因为同样的互联网兄弟公司,比如像Google可能有类似的经验和技术,但是它绝对不会告诉你,所以从这一点讲,百度应该在大数据的各个方面,存储处理,还有加以利用各个方面,应该是说具有国际竞争力的核心技术。
财经网:因为现在已经出现了一些专业的做大数据分析这样的一些公司,或者是说咨询公司,但实际上在握有数据的主体的,他其实考虑到数据的私密性,可能会并不是特别愿意跟这样的专业分析公司来合作,您觉得这样合作的前景,它会有一个比较好的前景吗?
陈尚义:随着这个产业不断的发展壮大,分工的精细化是一个必然的趋势。刚才你说的那些问题可能是在发展之中都会得到解决的问题。
财经网:但是您说数据的私密性,所以说未来可能还是会打破这个壁垒,会有一个全面合作的格局是吗?
陈尚义:我是这么看,因为这种分工的精细化肯定是一个趋势,至于说隐私问题,还有商业机密的问题,这个可以通过很多种渠道去解决,比如说这个行业越来越规范,国家出台一些相应的保护措施等等。
财经网:刚才您也是谈到了大数据对于一些技术上的革新和变化,会带来一些给人非常好的变化。随着大数据时代的到来,一些握有大数据的这样一些公司,或者说这样的产业,在未来,在它的比如说产业链或者是产业分工的格局上,会有怎么样的变化?
陈尚义:这个问题过去也跟一些业内人士探讨过,人家问我是不是像您百度这样的企业,握有大数据,会不会很霸道,话语权是不是很大。其实我觉得不是这样的。拥有大数据的企业,它在数据的处理能力方面,肯定有先天的优势,但是在现在移动互联网,特别是云计算,或者是移动云计算的年代,用户的要求是丰富多彩的,大家都说现在是应用为王的年代,而应用是丰富多彩的。作为一家企业,哪怕你是百度这样巨大的企业,也满足不了所有用户的要求,只有贴近社会、贴近用户这样的一些中小开发者,甚至是一些个体的开发者,他们才能了解用户的需求,开发出丰富多彩的、很多、很小的应用,有些是你大公司想不到的。在这种情况下,百度跟开发者之间其实在大数据上也有很好的结合点。比如说一个小的开发者在开发他的应用,他如果调用了百度的这种大数据的处理能力,比如说地图的API,我们大家都知道百度地图,包括定位这个技术已经做的非常好的,用户也非常多,我们把这个技术开放给开发者,哪怕他是一个个体的开发者,他实际上站在百度的肩膀上,他开发那个小的应用也具有定位的能力,用百度地图的这种能力,这样实际上他站在百度的肩膀上,使他开发的应用功能更强大,更好地满足用户的需求,像这样的地方其实还有很多,包括百度的翻译,包括百度很多的大数据处理能力、统计分析报告,他都可以去用。这样建立一种互补的关系,一种合作的关系。实际上我可以这样讲,拥有大数据的企业,它对整个产业链的拉动应该发挥了更大的作用。
财经网:但是还是会有一些合作的模式会发生一些变化?
陈尚义:合作的模式会发生一些变化。过去,不是在大数据能力基础之上给这些中小企业开发者提供这种服务,而是大企业利用大数据给自己的业务服务。现在大家都讲开放,实际上我刚才讲一点,不知道你有没有留心,大数据这个年代实际上是促进了开放,为什么这样讲?因为首先握有大数据的这种企业,由于它的业务,专注的业务方面所受限制,大数据的很多价值它没有利用起来,这是一个。另外,我讲了,在应用开发方面,应用大数据,你满足用户的多姿多彩的需求,你必须跟开发者进行合作。刚才我还讲一个例子,那个找石油的企业,他们内部这种数据的处理和发掘问题的能力,由于受到这个限制,所以它很久都没有根据大数据找到他所需要的矿藏资源,它对全社会开放了,利用全社会的力量去找,很快就能达到它的目的,实现了多方的共赢,促进了合作的方式。
财经网:开放也是有风险的。
陈尚义:当然。什么事情都是有它的两面性。
财经网:您刚才谈到的开放这一面,可能它的另一点很重要的,就是如何掌控这样的随时而来的风险?
陈尚义:目前,我们也尝试做一些开放。比如我们的开放研究计划,就是把我们的数据交给研究者、学者去研究,在这个开放过程中,我们其实也积累了一定的经验,有一些提前的规划,比如说我们对用户开放数据,我们不能暴露用户的注册信息,这个我们开放之前我们是一定要经过处理的,为了保护用户的隐私,在初始的时候,不可避免的可能有用户ID的信息,还有一些其他的信息,这些要经过清洗,还有跟开发者、研究者签署协议,这些风险都可以依靠安全措施得到解决的。
下一篇: php添加mysqli扩展