技术热点论坛:云里的大数据
和讯科技消息 11月16日至17日,由《IT经理世界》主办的2012中国技术商业领袖峰会在北京举行,本次峰会的主题为C时代源动力,和讯作为独家财经媒体支持为您带来全程报道。
本次论坛由《IT经理世界》资深编辑孙泠主持,HDS中国区解决方案与专业服务事业部总监陈戈、北京天云融创科技有限公司副总裁雷涛、英特尔亚太研发中心总经理、软件与服务事业部中国区总经理何京翔、用友华表软件技术有限公司首席架构师华秀章、华数网通信息港有限公司副总经理石磊、爱点击iClick销售副总经理王勇、微软(中国)有限公司企业服务部首席技术官殷皓、华为IT产品线中国区MKT部总工张军共同参与。
以下为论坛实录:
孙泠:谢谢上一场嘉宾精彩观点的分享,下一场对话的内容更加精彩,请各位讨论的嘉宾到场外讨论,我们下一场马上就要开始了。
感谢大家在周末的时间参加我们这场云里的大数据的讨论,刚刚结束的美国总统大选当中,奥巴马的竞选当中有一位专家发挥了至关重要的作用,它建议奥巴马和克鲁尼联合主持筹款的晚会,还提高了奥巴马团队进行推销,还有各种在社交网站上的准确率,这么厉害的专家叫谁呢?它的名字叫大数据。我们今天讨论的这个话题就是在云计算碰到大数据之后产生的商业效应,接下来有请参加这场对话的嘉宾,他们是:HDS中国区解决方案与专业服务事业部总监陈戈先生、北京天云融创科技有限公司副总裁雷涛先生、英特尔亚太研发中心总经理、软件与服务事业部中国区总经理何京翔先生、用友华表软件技术有限公司首席架构师华秀章先生、华数网通信息港有限公司副总经理石磊先生、爱点击iClick销售副总经理王勇先生、微软(中国)有限公司企业服务部首席技术官殷皓先生、华为IT产品线中国区MKT部总工张军先生,欢迎您。
大家围绕大数据谈一下自己的看法,时间每位5分钟,尽量不要做广告,我们非常欢迎精彩观点的分享,从陈戈先生开始。
陈戈:各位来宾,大家上好!非常感谢《IT经理世界》能够邀请HDS公司参与这样一个活动,我也很高兴在这儿跟大家一块儿分享在技术创新领域里面的一些新的趋势,以及所谓的C时代的原动力。
作为信息技术服务和解决方案的供应商,HDS应该说跟云和大数据的主题是有紧密的联系的,应该存储是云和大数据的一个基础,为了更好的帮助我们的客户来迎接云和大数据的挑战,我们HDS建议有三步的这样一个战略,就是基础架构云、内容云和信息云。三步战略的主题其实也就是说,希望基于客户现有的投资打造一个,或者为所有的数据提供一个一体化的、虚拟化的平台。三步云里面,首先基础架构云我们认为它是旨在提供一个可以按需扩展的这么一个虚拟化的,或者融合资源的这样一个动态的基础架构,通过这样一个基础架构可以把服务器、网络、存储这些孤岛能够统一起来,它的关键因素应该说是虚拟化,不管是各种层面的虚拟化,只有虚拟化的架构,才能够提升IT的基本效益,以及降低成本。
什么是内容云的战略呢?内容云战略就是通过一些虚拟化的平台,或者单一的平台,借助一些智能的工具实现数据的索引、搜索以及挖掘。因为大家都知道,其实数据和应用程序看起来好象密不可分,可是数据的生命周期很长,有些长达30年,甚至更久,可能产生这些数据的应用程序有些也就是几年的寿命。那么,只有把数据从应用程序里面脱离出来,这些数据采能够更容易的被人发现、共享以及再重新的利用,这样才能够真正看出数据的商业价值。
信息云战略是什么呢?信息云战略应该是更加靠近大数据,我们认为在信息云当中智能的分析层,信息的分析工具,流程应该跟基础架构能够紧密的集成。那么,这种集成是一个什么样的效率?通过一些比如说可动态扩展的这种横向扩展的文件系统,能够并行的大范围的支撑所谓的大的数据量,以及并行的海量的处理能力,能够通过一种比如说通过复制,或者重组的方式,从孤岛化的、非结构化数据吸取进行,放到这个平台里面进行运算。在信息云里面,通过可扩展的文件系统,以及它对并行的处理和出这种结构化和非结构化的数据,这样才可以让我们的客户更好的挖掘数据里面的商业价值。
所以,这是我们HDS的三步云的战略,虽然不够好,可是也算是前三甲了,其实我们在全球应该说在各行各业里面,*、金融、医疗、电信,HDS都在提供各种功能架构的云解决方案,超过70%的财富100强的用户,和超过80%的全球100强的用户,都是HDS的用户,我们也非常乐意帮助我们的用户迎接他们的挑战。
最后总结一下,我们认为应该从基础架构开始做起,到后面内容的访问,以及到最后的信息云,最后挖掘到更大的商业价值,这是我们也希望给大家的一些建议,最后感谢《IT经理世界》和主持人给我们这样的机会,谢谢大家!
孙泠:谢谢陈总,华总分享一下您的观点。
华秀章:各位来宾大家好!我也跟大家分享一下我对大数据的看法。大数据我主要谈三点,这三点应该是大数据发展的三点原因。大数据存储我觉得目前是海量的,到存储作用不大。第二、大大数据的计算,在计算上面云计算这个主题是云上面的大数据,其实大数据跟云计算什么关系?这样就体现出来了,应用一句歌词,蓝蓝的天上白云飘,白云上面大数据跑,大数据要跑起来,必须要有类似于云计算这样超强弹性的计算能力,如果没有云计算,就不行,有了云计算,寻常百姓就可以用。如果数据只是存储,不觉得不需要大数据,如果想要大数据跑起来,必须要云计算,这是我对他们两个关系的看法。
最后一个简单计算使用大数据,我们花了更多精力也是计算,我认为大数据的终极目标,就是创造大数据的价值,就是大数据,大价值。怎么实现大价值,以前叫传统的BI工具,但是传统的BI工具对大数据有一个要求,所以我们需要有一个BI For大数据,这是充分展示大数据大价值的一个手段,也是非常高层的,谢谢!
孙泠:我觉得雷总您对这个话题特别感兴趣,因为谈谈的天上白云飘,您天天在云基地里跑。
华秀章:要先知道我们是谁?我来自与云基地,我的业务主要是把大数据的业务建立起来,不光是BI,主要是去掉传统数据库。第二块是一些培养大数据创新的,管理一些小的基金和实验室。后面就是云计算和大数据的关系,把我的想法分别讲述一下。云计算和大数据这两个题目都在讲,云计算是怎么让IT资源低成本合理的控制住,所以在这个层面上,非IT人士理解云很困难。大数据更多指业务端,它创新的能力比IT更直接。
4个V,容量、速度、价值、分类,这四个V是描述大数据形态,但是是不是涵盖了整个大数据的使用价值,四个V像量级、速度、多样性更多是没有机器,相当于在传统世界里头。(声音太小听不见)。
孙泠:石总您是唯一来自于广电领域的,您就站在您的领域谈一下。
石磊:对大数据来讲,在广电运营商里面就在身边,广电的很多应用都符合了大数据,包括编码的格式多样化,原来的很简单,现在NPU2,这些格式太多了。第二个所有跨平台的使用越来越普遍,原来就是在电视机前面,现在基本上移动屏,PC屏,还有智能终端都可以,海量数据是一方面。
第二方面随着双向网的改造,双向网的迁移大概全国有4亿的覆盖用户,这些使用习惯累计其实也是改良数据,但是通过这个数据可以挖掘很多一些新的东西,包括对这些用户的一些调查,最早一抽样调查不准确,现在基本上非常准确,因为所有开机率,开机的情况,用户点播的时间段都很清楚。第二种应用,对于一些精准信息的推送,这也是最大的应用。
第三个方面,其实云计算和大数据我觉得是紧密相关的,云计算在IT管理层面是运算的管理能力,华数要满足高扩展性的用户的需求,要建立一个云计算平台。所以,从去年开始,公司就开始部署云战略,在今年专门成立了云数据公司,我自己在里面担任副总,我们主要是面向用户的应用,怎么把云体验的架构获得更丰富的应用,包括开放接口,以及第三方,其实在座的我觉得都是我的合作伙伴,都可以和我一起做一些精准的应用的一些服务,满足客户不同的需求。谢谢大家!
孙泠:来自微软的殷总。
殷皓:大家好,今天很感谢有这个机会跟大家分享一些我对大数据的一个想法。这边我也做一个广告,是代表微软,也是代表微软的企业门户。我的工作就是关于大数据无所不能,你可能要问你能帮我解决什么问题?我的回答是您想让我帮您解决什么问题?可能就会引出另外一个问题,您觉得大数据有多大?我的回答就是您的钱包有多大。回过头来,这是一个玩笑话。但是,我觉得从整个云和大数据来说,重要的一个我们看见云和大数据为我们带来无限的可能性,如果看传统的IT,它的投入几乎是几何式的增长,我的计算能力的提升还是核心的增长。同样,在云计算的这个新的领域,特别是公有云,对我企业我能够得到的资源理论上是无限,我需要的资源根本我需要的。
谈一下大数据,基于我对数据的了解,数据里来说他能给我什么价值,根据我的经验定义能给我什么价值。大数据这个时代的来临给我们提供了一个什么机遇?我现在可以从另外一个角度可以打破我以前的认识,可以从新的数据源里面找到新的价值,或者从新的数据源里探讨是不是有新的可能,从而实现额外的商业价值。从一个角度来说,大数据给我们带来的一个机遇是数据跟价值的回报几乎可以达到无限,这里面可以说是一个方程,一个等式,我可以在这个数据里面看到无线的可能,延续、持续的叠加的整合,不同的数据,但是我资源、运算,怎么样能够在这两种里面得到一个最大的回报,这是大数据技术的提升。IB的展现工具都是能够帮助我们怎么样在有限的资源里面更好的让我有能力更大的程度上挖掘出数据的价值。这里面做一个简单的总结,我觉得就是大数据+云是技术创新变革中非常大的推动因素,这两个因素加在一起可能产生几何式的效果。谢谢!
孙泠:王总,在大数据应该能赚到钱。
王勇:差不多,去年的云计算到今年的大数据都非常火,我们可能更加关注一些具体的大数据的应用。因为刚刚提到大数据和云计算相结合起来是有很多的商业价值去挖掘,我们在这之中可能找到更多的和营销相关的事情。对我们来说通过大数据的积累,我们能够把整个更传统的营销向基准营销转变,但是转变过程中有很多变化,可能传统的营销方式更接近品牌的东西,对于我们基于大数据研究的东西可能更关注一些效果,这也是跟我们公司的定位有很大的关系。在这个基础上,数据挖掘给了我们一些合作伙伴更多的有价值的信息。
第二、通过大数据我们不光是能够找到这些精准人群,其实人群找到了,不见得这些人会成为我们真正的用户,我们下一步是把这些用户进一步的计算,找到一些真正能够成为我们用户的那些人群,通过我们数据的挖掘进行实现。这一块是我们从大数据的应用过程中,我们实实在在能够成为我们的一种商业模式这种深入挖掘的一种方式。
对我们来说,大数据这一年非常火,很多人都在讨论。可能在一线的一些应用过程中我们也面临一些非常大的问题,比如说一些标准化的问题,不同的厂商也好,还是不同的一些资源的数据提供者也好,标准非常不同。在实施过程中,整合是一个很大的问题。还有一个很重要的问题就是是一个多屏的问题,因为我们可能更多的还是从第一线,从线上,用户端获取数据,怎么能够把多屏之间的数据进一步打通整合,也是我们要关注的事情。还有一点大数据非常重要就是实时性,因为对于用户来说,在线上也好,还是在平常生活中,其实它有价值点,怎么样把这个点找到,这是我们要做的。另外,做大数据不可回避要对很多用户的信息做深入挖掘,本身现在国内这一块也没有标准,我们只能按照一些传统的思路抓取更多的用户的行为习惯,关于用户个人的一些属性问题,这些数据可能对我们来说不会做深入的挖掘,这可能是我对大数据应用第一线的一些思路。
孙泠:华为的张总。
张军:大家好,大数据这一两年比较火,华为在大数据里也是关注很久,在这里面我们要承担什么样的角色呢?我们更多是在基础设备的层面,大数据为什么呢?从华为的云战略来讲,讲云战略和大数据的关系,从华为云这端大家都比较清楚,华为认为短、网、云是数据价值的获取过程,从数据的获取,处理一直到交互这样的一个流程。这里面实际上提供了一个基础设施,一个非常弹性化的廉价的便宜的设施,促进这个过程的扭转,让你低成本的获得这个信息,这是华为的理念。
大数据其实提出了有很多年了,其实在数据挖掘,数据支付早就提出这个概念,为什么到现在才火,是这个时代造成的。目前来说,首先云计算起来之后,为数据的处理打下一个基础,没有数据何来的大数据?第二、不得不提的就是技术的发展,促进了大数据的产生,HADOP(音译)解决了两个问题,它的HDFS解决了数据存储的问题,能够让数据非常廉价的存储起来。第二个就是DUSE(音译)的技术,正式由于基础设施成本的下降促进了大数据时代的到来。从大数据这个概念上来讲其实是非常广泛的,你可以说现在互联网上的数据很多是大数据。另外大家还没有提的一个就是科学计算领域,比如讲DNN色系,一次色系可能就有几T的数据,这样整个的大数据的概念是非常宽泛的,大数据其实是为大家提供了一种新的理论,为什么不火?我想它不仅是说数据多了,它其实为行业提供了一种新的解决问题的思路,你把社会问题和科学问题统一起来看,你会发觉传统的研究会是有理论研究,科学实验和仿真,现在提供了一种用大数据归纳的方法去归纳这些数的规律,这在无形中对业界就有非常大的吸引力。
所以,我想大数据的价值就在这里,它之所以火,也就火在这儿。至于华为来讲,包括在这个里面做什么?我们就是做技术的平台,我们研究怎么能够让你便宜的、高效的去利用这些数据,能够达到你的效果。我们也欢迎应用,我们认为大数据是一种应用,它是云上的,或者是基础设施上的一个应用,我们也愿意和做应用的这些朋友去一起来合作,来发展这个产业。
孙泠:张总在发言的时候,何总一直在频频点头,张总说我认为大数据是一种应用?何总,您是不同意吗?
何京翔:我觉得因为我们跟华为合作很多,我们的理念很多都是相同的。讲到我这块,天天的天空白云飘,白云后面有大数据。确实现在的数据中心里面,现在英特尔架构的份额是80%以上,所以说如果谈到大数据,谈到云计算,英特尔是责无旁贷的。从我们这边讲,可能从看问题的角度我们不太一样,因为在座的可以说都是我们的客户,都是我们尊敬的上帝。
所以,我们看大数据的时候认为大数据是随着云计算、物联网的发展过程当中,大量的数据产生,特别是非结构化数据产生的必然结果。而这样的数据产生的结果可能无论现在是各种不同的结构化与非结构化的数据挖掘很多的算法,对我们来讲首先我们希望看到的是一个开放的结构。因为我们认为主要的一个观点就是说随着云计算、物联网的发展,封闭的结构是不可能达到这样的规模的,必须是一个开放的结构,所以我们一直推开放的数据中心,开放的大数据的一些解决方案。基于的一个理论就是大数据需要众人拾柴火焰高这样的一个历年来解决,不是一两家公司,几个公司能垄断的解决的问题。
第二、大数据很大,依然需要规模化的实现。不是我们需要一两个大数据中心就能够集中解决和处理掉,我们生活中有很多大数据的问题,无论是交通的、医疗的、科学计算的有很多大数据问题,不可能用一两个大数据中心来解决,需要有操作能力,当然也需要更多的及时的,分布的,不同模式来解决。所以,它的形态可能是多种形式的。最重要一点,很多是用户的体验,其实大数据也有这个问题,最后是不是可用,能不能给用户很好的用户体验,大数据不是说在云里飘的,一定是看得见,摸得着,得对用户受惠的,大数据整个是一个流程,然后还要怎么样有效的送给用户,它是一个端到端,再回到端的问题,所以这里面涉及到很多,不光是数据中心的技术,可能还涉及到比如说在网络里面分布式的处理能力的问题,以及大数据在用户的终端上能不能表现的问题,这里面有很多是我们IT界非常关心的问题,英特尔从这个角度也非常关心,因为你的问题就是我们的问题,谢谢大家!
孙泠:谢谢各位的观点分享,我们进入互动讨论的阶段。第一个问题其实非常简单,刚才各位都已经分享了自己对云计算和大数据的一些看法。第一个问题需要大家写一下答题板,用一句话表明您认为什么是大数据?
石总多维度有挖掘价值的海量数据集合。
石磊:我为什么写这个东西?第一、对广电来讲,确实我们这个纬度是多方面的,有实践的纬度,整个空间的纬度。第二、价值是很重要的一方面,从我们广电运营商的角度来讲,首先数据有价值,没有价值就没有意义。怎么把这个价值发掘出来提供给用户,让用户能够体验到我们一些精心的应用的推送,我觉得这个很重要。
孙泠:殷总写的是大数据代表了一个新技术的时代,数据存储管理价值的体现。
殷皓:我认为大数据并不是一个狭隘的定义,定义一个存储的技术或者管理,它只是给了我们很多新的手段,实现更新的商业价值。这个时代非常重要,所以我们从大数据应用,并不一定说我们要做一个PB,或者TB级的应用,很可能你身边几兆的数据,但是用以前的方式没有办法再处理。但是,新技术在这个时代实现的技术可以帮助实现一些新的应用和新的模式和新的手段。
孙泠:王总三点,海量数据,多种应用纬度,有挖掘价值,这个可以不用解释了。张总,大量异构,可有价值。
张军:我稍微解释一下大量,我觉得就是说这个量一个是量大,一个是信息量足够,你可以这样想,但是量跟你的目的有关,你需要收集到达到你目的的,挖掘目的的信息量。
孙泠:量可大可小?
张军:对。
何京翔:开放的、规模化的、海量的,可展示的。
陈戈:大数据我们理解一个是数据源,以前的大数据可能更加关注业务驱动的数据,比如一些结构化的数据,我做IT20多年了,十几年以前大家都知道数据仓库,数据仓库其实可能就是大数据最早的一个理念。但是,它更加针对的是结构化的数据,可是实际上现在这个时代里面,我们认为产生了很多数据,比方说邮件,你的各种各样照片,其实这个数据量可能是10倍于你传统的结构化的数据。其实更加大的数据带后面,也就是集体产生的数据。比方说我们看一个卫星图片,大量的产生这样的一个视频,这些东西很多,比如录像,怎么样从这个数据里面,这么多的数据量里面挖掘一个东西出来,如果储存恐怕是最重要的一个数据,这就是我说的数据源。还有一个属性,就是四个V,我认为这只是大数据里面数据的属性,不管是量大也好,变化种类多也好,我认为这个价值应该是最后的结果,是大数据能够产生的结果,那个价值才是我们要的,还有最重要的应该是一个BI的系统,应用信息的分析是不是很智能我觉得很重要,虽然不是我们做存储的长项。底下数据的储存,如果根据它相应的特性作相应的处理,支撑BI才能够真正挖掘到数据价值,才能真正处理所谓的海量的数据。
孙泠:虽然我们讨论的如火如荼,大数据也是最热最红的一个词,三年前还有一个词叫云计算,也不亚于现在大数据的热度。但是,云计算在伴随它的发展过程当中一直有观点认为云计算是服务云,是忽悠。大数据爆发出来之后,也有一种观点,特别是一篇文章提出云计算就是谎言,那篇文章里提到大数据其实是一个客观存在的现象,这个已经很多年了,包括它四个V的展示形式,只不过现在在座的各位厂商为了多卖产品,多卖解决方案,把这个包装成为叫大数据。各位认为大数据到底是不是一个谎言?雷总说是。
雷涛:我觉得我们在座的都是推动者,每一个事物的出现都有它发生的一个契机,为什么大数据很热,包括BI。我很赞同刚才微软谈的,什么东西是真实的?什么东西是谎言?我们讲几个实际的故事,不停留在名词的讨论上,大数据到底有多大?这一个概念可能就到量级了,我讲几个实际的案子。一个案子大数据是零,初期的时候没有一点数据,比如北美给汽车保险做个性化保险的,最开始没有数据,通过个性化的行为以后,收集上数据以后,30%的数据反馈的方式实现,这个大数据就发生了。还有北美的一个做电网的云,过去的时代可能12个月每个月一条数据,你的数据量很少,现在400TB级别的数据。它怎么获取到数据,我提供一个个性化的报告,一个用电的行为,把电表装进去以后,把这些数据加工以后,卖了,这就是一个典型的大数据项目,所以它是一个落地的内容,我也希望我们可以透过这儿名词看到本质。其实在座的看了很多书,像《爆发》,现在大数据出了很多书,有大量丰富的实践的案例。但是,实际的通过IT,通过科研,通过商业里面实际的变化,可以让大数据落到实处。
孙泠:华总是怎么说的?
华秀章:是也不是,在座的很多都是互联网公司,或者电商,我是来自企业,对这个字有一点不一样的感触。说一个小时候课文上面的故事,就是小马过河,小马说水很浅,可以过去,松鼠说水很深,过去会淹死,其实谁也没有说谎,大数据也是一样,对于互联网公司,对于电商绝对不是谎言,对于传统的企业,比如制造业很多企业似乎是云单风清,所以目前想推大数据往往很难,企业说我们没有大数据。所以,怎么办呢?其实大数据不是有三个V吗,后来又加了一个V,你说的量大,还有一个V,你的性能有问题吗,你有数据挖掘价值吗,那你就存在大数据问题,其实三个V你都存在,还说没有大数据问题。对企业来说,它上来这个大数据解决方案其实不一定能解决这个问题。
孙泠:你的打击面很广,最后就是说只有BI不是谎言,别的都是谎言。下面的问题跟四个V有关,一个是数据的体量巨大,第二个数据的类型非常多,第三是价值力度低,需要通过数据挖掘产生效益,第四个就是处理速度快,公认的大数据的四个纬度,您在工作当中遇到的您的客户认为最迫切需要处理的问题,把这四个V进行一下排序。
雷总第一是量大,第二速度。
雷涛:这个并不代表实践,实践里面有很多案例,运营商现在用3G了,这个量是他们迫切需要的。第二个就是速度,客观讲,多样性也是,现在要处理的不是说一个传统的关系型的交易记录,而是URL,对于URL的一些内容我们还要反弹,看到一些内容,以前可能用一些数学的方法,现在可能要做关键字的提取。价值可能主要涉及到商业,这一块才是真正驱动大数据应用对广阔的一个部分,这一点要想做到,任重而道远。
孙泠:石总您的答案是?
石磊:我第一个是多样性,第二个录用,第三个量,第四个是效益。比如说我们的应用上面要做一些广告推送,必须对所有的纬度空间进行分析,这样的顺序一定是多样性的,所以我们一定放在第一位。为什么把速度放在第二位,首先要实时的响应,精确的推送下去,然后分析这些订购的行为,采购的行为,充分的挖掘其他的价值,我们一般这样分。
孙泠:殷总。
殷皓:我和雷总差不多,第三个是价值,最后一个是量。为什么呢?我是在微软研发部门待了几年,从客户的需要和产品的需要两个角度来看是对技术的要求。有一个很多传统的对量的分析我们已经从数据仓库做了,但是现在一个大的挑战,就是怎么样能够把不同的数据整合在一起,产生可视化,可分析的数据,或者从社交媒体发一个言论,怎么样从这里面解析出你对一个品牌的价值观的认可程度。这个就是怎么样把异构的数据里面以前我们看不到的这些数据挖掘出来,从而产生价值。
我们现在也看到一个非常新的趋势,都看到秒级,这个速度是相对业务需要的,怎么样能够实时的在你业务发生的同时能够产生出分析,然后让它回馈到我的整个业务流程里。所以,整个大数据这个是非常重要,在传统的对大量数据分析,或者异构数据整合之后,做过去时型整合的同时再有运维的级别,直接在每一次事态出生的时候产生实时的分析,并反馈到我们的运维里面。密度也是一个,我们也看到一个场景,往往我在某一个单独的事态,可能速度非常快,但是足以支撑我做一个数据分析,或者做一个决策的价值相对是低的。这个密度就需要一个有历史性的趋势的分析来帮助,比如我可以利用这些数据做一个门店的销售模型,这个模型和我实时发生的事态整合在一起可以帮助我提高我的分析能力。量为什么放在最后,现在特别是云计算帮我解决了量的存储,量我觉得是最不用担心的一个问题。
孙泠:王总您认为呢?量是最不用担心的一个问题。
王勇:对我来说第一个是价值,其次是多样化,量第三,速度第四。本身我们在其他的几位嘉宾,我们是在大数据前端的商业应用商,怎么挖掘有价值的这些数据,密度对我们来说非常重要,因为挖掘出这个东西,就可以到我们的合作伙伴里面变现,而且我们众多的合作伙伴也希望他们的数据能够真正把密度分析出来,到底它的整个轨迹是怎么样,在这个轨迹过程中,哪一些点对它来说最有价值。所以,我把这个放在首位。其次是多样化,现在是互联网也好,移动端也好,信息是碎片化的,大家伙儿的停留时间很短,怎么把它进行整合,同样数据类型也不一样,不同的大数据提供者,它的背后的演变方式也不一样,怎么样把多样化统一,这也是我们要做的事情。其实数据量大到不是特别担心,这是很多人都在做的一个事情,可以从其他的一些角度得到这个数据。速度批来说,刚才有人提到,对我们来说我们已经在毫秒级,在商业操作过程当中,在100毫秒以内要做所有的商业感知。速度快,我们基本上已经解决了,所以我还是把商业密度作为最重要的。
孙泠:张总,量大、类型、速度、价值。
张军:不同角度看,我们最关心量的问题,因为如果量大了,比方说我们做的一些案例,像欧洲的一个案例,每次对撞产生的数据都是上P级的,不把它存下来就没法挖掘,如果存的成本很高,量都上不去,上不去做实验的次数就有限,整个就影响它的研究,量其实还是比较追求的,当你需要大量的时候,你就会发觉这个是一个瓶颈,你这个成本,关键是成本的问题。
第二个就是类型多,因为大数据是涉及到各个行业,对于我们平台来说就关心类型,既有数据库的又有图象,又有文本,XML,用什么方法去既能存数据库的,又能存非结构化的数据的,那么这样的存储还是低成本的目前还没有。在这方面我们有很多思考,我们明年会推出相关的产品,所以类型其实很重要,将来还有一个问题,就是类型你没有标准,你说非结构化数据类型没有标准,你将了之后,你对各个不同的应用,标准就会不统一,接口就会不统一,会带来很大的麻烦。
第三个速度,是因为有的客户在挖掘价值的时候对速度的要求还是有的。比如电信对信令的处理,故障的诊断都有速度的要求。
价值密度我认为实际上是跟你的应用相关,你做应用之前想好要做什么,你的价值点在哪儿?你有没有方法做,而不是被忽悠,如果被忽悠了,可能挖不出东西了,但是你如果真的想好了,你在挖掘之前有很好的一个设计,那么其实你可以从数据当中源源不断的挖掘出你有价值的东西。
何京翔:我的排序不是完全基于英特尔的考虑,而是跟一些客户接触,考虑一些大客户的项目,更多是基于对客户的讨论。顺序首先是量,他们现在先看到的是量,就是怎么样先把它及时采集下来,然后存储起来,这本身就是一个很大的问题。然后数据存储以后,肯定处理上需要速度,速度我觉得是第二个,就是能够把我存储的数据及时处理,把数据变成信息,这个是需要有一个转变的越快越好,因为这样能够及时的体现出第三个价值,我做大数据为什么?就是为了价值,体现出价值,然后各个击破。所以,我现在接触几个客户现在是这样,先选一种,比如你移动的帐单,先看帐单怎么处理,或者说视频监控的,把视频监控的图象处理好,这就很难了,我觉得先体现出价值了,再解决其他的。
孙泠:HDS的陈总。
陈戈:我的顺序是首先量,大数据大数据没有量分析什么?第二个我们认为是种类,因为大数据真正定义从各种各样的定义中找出关联性,揭示它的规律才叫大数据,所以正是因为种类繁多,太找不到中间关联的规律出来,这才是大数据的定义所在。第三个速度,既然大数据里面都是海量的数据,现在很多是PB级,现在其实很多已经到EB级了,如果从数据里面获得高性能的速度,尤其处理结构化和非结构化的速度,那我们这个很重要。我不认为价值低,价值可能是它的特点,但是正是因为价值密度低,所以才要求对BI,或者计算能力和商业的智能提高更高的要求。其实大数据大数据,EB级的存储不是有几个数据中心,或者几个客户,如果传统的数据中心可能达不到,可能客户更追求高密度的,节省空间的。
您的第二个问题说大数据是一个谎言,我认为大数据应该看它背后的东西,我认为它是人的一种本能,或者商业或者企业追求它的价值所在,它引发出来的需求。其实早就有这种需求,从最早的数据仓库我们看到了,互联的时代,移动数据的时代变得很火爆,因为大量的数据产生了,所以业内才取了这个名称,所以我觉得不必纠结于大数据,或者大大数据,更多是看到大数据能够给我们带来什么,我觉得这个是很重要的。
孙泠:华总的答案。
华秀章:大数据是量大,但是我有一个问题,可能排第一,也可能排最后,这是企业的特殊性。大数据因为是PB,这种我把企业里面就把它放在最后,但是如果允许,我会把它排在最前面。事实上企业大部分是结构化的数据,当然结构化和非结构化,我跟清华的一个计算机教授曾经做过讨论,他跟我说企业里面80%的数据是非结构化,我就补充了一句,他最后也点头了,但是恰恰剩余的20%的结构化数据是耗费了企业80%的计算资源。比如我们说非结构化,一部电影动不动就几个GB,甚至上TB的这种也很常见。事实上它对它的计算是很少,但是对企业来说,比如我们说一些复杂的,财务信息,供应链信息,往往就是100GB,但是会耗费你非常大的计算资源,往往需要几十台节点并行运算才能分析出一些规律挖掘出它的一些价值。所以,对企业来说,定义大数据我觉得标准上应该有所区分,不应该统一以PB来论。对企业来说,TB就是大数据,我觉得目前企业大数据应该排在第一位,如果按传统的BI,处理仓库,目前性能都能满足。
第二、价值,对企业来说,不管多还是少,太少了,没有必要,对企业来说比如10GB也不算少,都是财务信息,10GB绝对不算少,里面也能挖掘出很多东西,对它来说,就算10GB,也要从里面找到它的价值,所以对企业来说很重视价值,能够挖掘出价值,有些企业觉得没有达到它心目中所谓的价值点,所以,我觉得价值在企业里面会非常紧迫的需要。
第三、速度。速度仍然是目前企业越来越倾向于所谓的实时,以前我刚刚讲T+1已经慢慢不被用户所接受,但是现在随着技术不断的往下推演,很多能够提供实时的,用户就能有一个更好的解决方案。所以,速度也是非常重要。
最后一个是多样性。对企业来说,因为我觉得目前中国的大部分的企业没有到达我们企业所有的2.0。所以,这样它数据说白了特别是图片、音频不是很多,但是这个时刻,我相信一旦企业到了2.0,也就随着企业的一些移动应用,以及企业社交等等这些到来,多样性会变得越来越重要,也就是结构化跟非结构化的结合。
孙泠:十年前可能互联网就流传一句话叫做没有人知道你在网上是不是一条狗,十年之后,大数据时代大家都不是说我知道你去年夏天做了什么,而是我知道你昨天晚上做了什么。我昨天在微博上看到一句话说,现在算命根本不用你的生辰八字,只要看你的淘宝记录就知道了,下一个问题就跟数据隐私,数据保护有关。各位您对大数据世界里的数据隐私和数据保护怎么看,您认为基于数据挖掘的边界在哪里?雷总画了一个三角形,隐私和利益。
雷涛:隐私的问题在北美已经比较清晰和明朗了,下一个问题是什么呢?因为大家去分享你的隐私的时候,更客观的是关注获取什么样的利益,我严格意义上把我最真实的一些教育背景,人力资源的这些背景都分享出来,因为我要换取我的社交关系,换取我社会背景的拓展,所以隐私跟利益是挂钩的,要么牺牲隐私,这就是一个买卖关系。下一阶段要解决的是什么问题?是所有权问题,我放在第二位,第一个阶段隐私和利益置换会带来什么风险?置换相当于什么概念呢?最底层的人总在不断的贡献价值,贡献我的隐私,加工出一个新的知识体系给别人使用,因为他换取的免费使用的内容,在不断的积累我的购物行为,供给下一个访问者精确的推荐商品,下一个访问者是利用到一个群智的方式,逐渐的到最高层,所以这就是谁带哪个层面的问题。
现在北美更多讨论谁能够支配这个利益,一般隐私的内容加上其他的服务,我还有没有权利追溯我的服务所得,当数据加工成一个产品,价值形成一个流通的时候,谁能够控制他的定价,谁能够超过市场规律,谁能够实现这种交易,这一块数据所有权问题也是被业界定义比较多的,我们很荣幸看到国内现在起来了。国内现在我们也跟*谈,这些*高管也致力于建设这一块,所以这一块相信未来国内会走的比北美强。
孙泠:您个人在上网行为当中,这种交换行为,如果1是最低,10是最高,您处于哪个?
雷涛:10。作为行业的推动者我们是推动整个行业的变革,作为个人而言,我也是在感受着多方面的内容,哪些内容会贡献出去,哪些内容对我是至关重要的。
华秀章:云计算上面数据安全非常重要,我认为这个是影响云计算推广最重要的因素。很多数据放在云上面非常安全,所以他们会非常关注。我认为对于公开的数据,企业上市的一些报告,还有一些它觉得可以公开的事情也可以随便挖掘。对于企业敏感的数据,比如财务信息,一定要保护好,必须局限在一个企业里面,这也是决定一个云计算平台是否适合企业计算很重要的情况,跟平时我们说娱乐什么的,对企业,一旦财务数据泄露,将是非常敏感的,所以这个是非常至关重要的。
孙泠:陈总画了一幅画,给大家展示一下。
陈戈:我们是做存储的,我可能对数据隐私,或者数据挖掘更多是在做应用的范畴。我谈谈数据保护,大数据应该说它的来源是在于你的企业或者社会各种各样结构化,非结构化数据的孤岛,应该说大数据是各种类型的数据孤岛里面去摄取它所需要的数据,然后在这样一个大数据的平台里面进行相应的分析,得到他想要的解决。也就是说,它的大数据应该更多的关注在分析和计算,实际上它中间的来源,结构化非结构化的数据可能来自于它自己的企业,也来自于其他的数据,这些数据其实它个人都做自己的数据保护,一个是第一手的资料,可能那些企业直接支持他生产运行的一些关键资料。它通过数据把这些技术复制也好,或者重组也好,把它摄取到它的数据平台里面,我认为这些数据应该做保护。如果不是原数据,可能大部分客户并不关注中间的过程,所以它产生一些临时性的数据,其实重要性可能没有那么高,但是恰恰对它的结果的产生量的数据恰恰更重要,这是我们对数据保护方面的理解。
孙泠:石总。
石磊:刚才讲关于用户的行为分析我们一直都在做,但是这里涉及到两块,一块是隐私的这一块,我们一定不会做。但是对于一些行为特色,大量的数据分析,其实技术本身是中立的,为什么隐私会被挖掘,因为现在互联网的信息比较多。但是,反过来讲,隐私保护的边界,我认为一定要理解和遵守这么一个隐私和数据保护的一个相关法规和一个能力的标准,这是必须的,就是企业要有良心。像最近一个局长跟他情人偷情的信息泄密了,反过来说明什么,这些信息也不保密,或者你认为安全的地方也不保密,所以我觉得后续可能要在两部分对保证这些数据不被不法分子接触。
第二、要有一个明确的地方,从我的角度来讲,泄露现在有没有责任,好象现在没有,你弄完了信息,整天给人家打电话,所以后续在法规上面我感觉肯定也要有明确,到底哪些数据是不能被泄露的,如果泄露是要追则的,否则我感觉我们会生活在一个比较焦虑的一个时代。刚才雷总的说法我有点赞同,但是也不赞同,利益交换在其中,但是如果为了利益把隐私交换,我不赞同。
孙泠:殷总。
殷皓:首先数据的保护非常重要,前一阵子我们在微软内部也对整个数据的保护做了一个比较深入的讨论,业界也有这样的一个共识,当我把数据放在任何地方,其实已经有了泄密的可能,比如手机、电脑。当我们把我们的数据发布到云上,或者放在一个云服务商,实际上就是一个定时炸弹,中国有一句话叫道高一尺,魔高一丈。当你的数据发出去之后,你的数据一旦以一个物理形式存在的时候,就有泄密的可能。
数据的保护来说,这是一个叠加的不断的需要重新评估,崩塌改进的一个工作,你不能说我设计了一个安全模式,然后就安全了,一定要定期的去改进,这是对自己隐私的一个保护,对你的客户的保护。隐私我觉得也是很有意思,它的边界和利益是冲突的,所以刚才我也想,我觉得石总讲的非常重要,我们要有行为的规范和法规的约束,最后要有机关去检索。这里面我们看一下商业模式,有时候我并不一定说把个人和你的行为放在一起,通常情况下把你这个人和行为剥离,提供给这个平台。那么,在这个基础上,可以把行为转手出去去获利。这个信息到了这个会场,已经是同意把这些信息提供给《IT经理世界》,从《IT经理世界》杂志有两种获利的模式,一种是把你的整个信息卖给你,第二个是第三方。
孙泠:我们没有。
殷皓:打个比方,这是一种模式,另外也有一种,我有了这些行为,有些信息我是可以转售来获利,你可以把你的广告推送到我的平台上,但是我的接口并不把你的手机暴露,您参加我这个会议的时候,愿不愿意接受别的商家的广告,如果你说愿意,我可以再谈事儿。
孙泠:殷总为我们设计了一个很吓人的商业模式。张总您的答案是?
张军:法律不损害。因为每个人对个人隐私的认知不同,你个人的核心隐私有哪些是会损害到你的利益,其实我想个体并不清楚,而且根据不同经历的人也不一样。我觉得至少有一个法律能规范这个事情,哪些是你必须不能泄露的,比如淘宝的信息,或者其他的信息,哪些信息是不能透露的,比如刚才说的你做挖掘可以,但是你不能把个人的信息,就是你的核心信息泄露出去,你的行为信息,跟你个体不是完全肯定的这些信息是没有关系的,对于我来讲,这些信息泄露出去没有关系,但是我核心的信息,比如我的身份证号,我的姓名,手机号一定不能泄露,我觉得一定有一个立法限制这些事情。因为你靠商家自我约束,有时候不太现实,比如很多事情泄露出来,像香港就追究责任。我觉得一定要把这个事情贯彻下去,从国家,从社会的角度把这个问题重视起来。第二个呼吁商家要有良心,尽量不要违反法律,其实你有时候打一些擦边球,但是要是最终损害你自己的利益,如果被发掘你偷了客户的信息,我想你这个网站可能会倒掉。
何京翔:就是道德层次,首先要有基本的道德,有一个道德标准,确实你做一个企业,要有一个自己的行为底线,你不能仅仅被利益驱使。第二、从企业内部要有相应的监管机制,不能说业务部门有相应的内部的监察部门经常的检查你自己,国家也要有相应的法律和监察部门,一旦发现了你的恶性,一定要有相应的处置。我觉得更多是人文和社会道德,或者法律这方面,最后才是自己。很多监管技术,很多的保护隐私的技术,我觉得这是最后一个环节,所以我觉得三各环节首先是道德,然后相应的监管,包括企业内部的,包括社会的都要有监管部门,一旦发现了就不好了,否则大家不愿意把信息,不愿意使用你的服务,这个行业就完蛋了,所以最后才是这些技术支持我们相应的策略、手段,以及相应的管理流程。
孙泠:王总,您的答案是?
王勇:我们现在讨论数据,可能更多还是在开放平台上,封闭平台的数据基本上挖掘的空间不是很大。开放平台上很重要的一点就是个人隐私的问题。其实现在中国互联网这一块的发展,我们觉得还是从一个简单粗暴到技术发展的过度期,一些个人信息的买卖还是可以找到一些市场,比如姓名、性别、电话、地址,但是如果技术进步的发展对你行为习惯的分析,远远超过对你姓名和联系方式的分析。但是,从商业模式来说,对兴趣和习惯的方式还是可以挖掘,但是对个人信息这一块要规避。刚刚你提到过在电脑后面是一只狗还是一个人,其实这个东西从技术的角度能够追踪到。从我们做的一件事情是说和个人所有相关的信息全部都规避,我们挖掘更多的是兴趣点。
这里面有一个问题,一个是数据的归属问题,我们和合作伙伴聊的过程当中肯定会碰到这些,一些大企业可能谈到这些,就是数据的归属性,现在这也是双方都在考虑。还有就是数据的实效性,大数据可能都是大量积累的,但是这个数据有些可能不一定是活跃的,它的实效性未必有价值。我们对数据的分析和挖掘也是在一个月的范围内,因为我们关注的是背后效果的一个数据,这个过程中你近期的一些行为习惯会直接影响你的一些行为,比如你一年之前的一些行为的挖掘,商业开发其实它的转化空间就不大,对我们来说,可能实效性是非常关注的一点,从整体来说,关注个人信息,关注实效,而对于兴趣和习惯上,我们相对来讲关注的会弱一点。
孙泠:谢谢各位嘉宾,今天下午的讨论环节更加精彩,希望大家能够准时回来,谢谢各位嘉宾!
上一篇: 国外旅行回来
下一篇: 大家抄的天昏地暗笑话大全