欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

华为:大数据与大未来

程序员文章站 2022-07-06 10:59:12
    有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”  ...

    有一天,美国零售企业好市多(Costco)接到了一位母亲的投诉:“我的女儿才16岁,你们却向她推销孕妇类的产品。”

    但是,这一次,尴尬的是这位母亲自己,她16岁的女儿确实怀孕了。为什么卖货的商场,却能比朝夕相处的母亲,更早知道女儿的孕事?

    回答这个问题,要扯上一个在2012年热透全球科技行业的关键词——大数据。

   数据之大

   发现自己怀孕之后,16岁的她不敢告诉母亲,只能时常在网上浏览一些和怀孕相关的网站,搜寻一些孕妇要用的东西。这些浏览行为会被当做数据记录下来,Costco的数据分析团队,会据此进行精确的商品促销定位。

   向记者讲述这个故事的华为企业业务BG存储营销总监杨传斌,有很多这样的故事。

   “最近我们中标了山东移动,运营商对大数据的需求是相当的迫切和强烈。”杨传斌说,对用户的话费清单进行分析,不管是对用户还是对运营商自己都能带来很大的价值。

   首先,从用户层面看,用户查询到自己每月的话费单后,面对一长串的数字,往往无所适从。他们需要知道的是,自己这个月漫游多还是本地电话多,接电话多还是打出电话多,哪些是自己联系最多的人。

   其次,从运营商层面来看,山东移动有数千万客户,怎样发掘这些用户的共性消费特征,制订出符合用户需求的资费套餐,是一个很大的学问。

   而这些都有赖于引入大数据的存储系统和分析系统。“部署大数据,一方面可以增加客户的黏度,另一方面可以降低运营成本,有的资费套餐只有很少人用,却还要为它维持一整套系统。”杨传斌向记者透露,华为的大数据解决方案已经在电信领域有了很多成功案例。

   “大数据”的风靡一时,归根结底还是因为人类社会数据量的几何级增长。

   “根据我们的跟踪,每18个月新产生的数据量是过去所有历史数据的总和。”杨传斌说,尽管公众接触到大数据这个概念是最近一两年的事,但在业界,这个词早在上世纪60年代就已经出现。

   从那时候到现在,人类对数据的应用主要经历了三个阶段。

   第一个阶段被称为关键应用部署阶段,时间从上世纪60年代到80年代早期,当时的主要用户是企业,主要是在大型机上部署财务、银行等关键应用系统,存储介质包括磁盘、磁带、光盘等。

   这些数据很关键,很重要,尽管当时人们称之为大数据,但从现在看来,这些数据的量是很有限的,这从上述存储介质的出货量增长上就能看出来。

   第二个阶段是企业自动化阶段,标志是PC的出现和大量应用,企业内部出现了很多以办公文档为主要形式的数据,包括office文档、Excel文档,以及后来的图片、图像、影像和音乐等。这时候,产生数据的不仅仅是企业的财务人员,还包括大量的办公人员,这极大地促进了数据量的增长。

   互联网的兴起为数据的第三次大规模增长插上了翅膀,在这个阶段,产生数据的人更加扩展了,不光是企业的办公人员,几乎全民都在制造数据。与此同时,数据的形式也极大丰富,各种应用层出不穷,既有视频、微博、博客等主动产生的数据,也有搜索、浏览网页等被动行为过程中被记录、搜集的数据。

   杨传斌说,发展到今天,这些数据已经呈现指数级的增长。目前全球性的科技公司都要和PB级规模的数据打交道,而Facebook每天要存储大约100TB的用户数据,NASA(美国国家航空航天局)每天要处理约24TB的数据。

   这些用来存储数据信息的单位可能比较抽象,拿人们熟悉的兆(MB)来做参照,1024个MB是1个GB,1024个GB是1个TB,1024个TB是1个PB,1024个PB是1个EB, 1024个EB是1个ZB。举个例子来说,欧洲物理对撞机每年会产生28PB的数据规模。

   杨传斌说,目前全球每年产生的数据量是ZB级,到2015年会达到35个ZB。

   商业机会

   数据无处不在,并通过各种可能的方式影响着企业业务和每个人的生活。但某种程度上,这又是一个很容易陷入行话堆砌和承诺陷阱的领域,尤其是最近一两年来,随着“大数据”成为科技热词,各路厂商纷纷从自己的角度出发,推介自己形形色色的大数据产品和解决方案。一时之间,赶时髦者有之,新瓶装旧酒者有之。

   “华为目前推出的大数据存储产品,比如N8000、CSS等就具有这样的特征。”杨传斌说,作为高性能存储的一个指标,华为的大数据解决方案在最近的一项测试中达到了300万OPS。这是衡量存储性能的一个指标,意思是每秒钟能进行300万个操作。

   杨传斌向记者透露,华为的这些大数据存储已经在国内外有了很多客户,除了前文提及的Costco、山东移动、欧洲核子研究中心(CERN),还包括工商银行、全球最大的体育视频节目制作公司IMG等。前者希望从客户的存储中挖掘投资习惯,并向客户针对性地推荐理财产品;后者对分布式动态视频渲染有着很大的需求。

   “除了存在那里,大数据主要还是要给存储数据的用户或者是最终的使用者带来价值。”杨传斌对记者表示,对于如何从数据中发现价值,业界有很多不一样的技术,其中最主要的是以Hadoop为基础建立的一整套分析体系。

   Hadoop是一个能够对大量数据进行分布式处理的软件框架,主要来源于开源社区。杨传斌说,这个体系由众多的*贡献者、部分厂商,通过开源的方式提供出来供大家*使用,华为在其中也贡献了自己的计算分析和存储技术。

   截至目前,无论是英特尔、IBM、EMC这样的基础架构厂商,还是微软、SAP、甲骨文这样的应用软件厂商,都推出了支持Hadoop或者基于Hadoop的产品线,以应对市场对于大数据的需求。

   “华为也会在Hadoop的体系内提供接口,和整个大数据的分析领域对接起来。”杨传斌说,Hadoop对于IT业界来说,除了存储,还可以在计算、分析、数据调度等方面为企业带来商机。

   著名市场研究公司Gartner在2012年10月发布的一份研究报告称,在2012年,大数据对全球IT开支的直接或间接推动达960亿美元,而到2016年,这一数字预计将达到2320亿美元。

   基于大数据的分析,未来会在社会的方方面面得到应用。比如,通过遍布各地的电子眼和监控摄像头,警务系统可以基于大数据识别一些危险的人或危险的行为,发现苗头进行预警。

   再比如,现在几乎没有人可以离开手机,而手机信号的大数据使用,未来甚至可以用于控制交通流量,通过车上的GPS和手机,当交通进入拥堵状态,就通过手机提示你进入某个路段要收费,如果执意进入,费用就从手机上直接自动收取了,这就避免了现在在各个路口设卡刷卡的做法所带来的麻烦。

   “这些都是和*的政策相关,技术上已经完全能实现,只不过政策上怎么部署的问题。”杨传斌说。

   格局未定

   “大数据还刚刚开始,可以说还没有形成格局。”杨传斌认为,截至目前,也还没有一个完全独立的大数据市场来作为样本分析。

   谈到市场竞争,杨传斌表示,“从国内来讲,华为在大数据领域遇到的竞争还是比较少的,因为其他厂商还不太关注中国市场的大数据;从海外来讲,大数据解决方案提供商涵盖传统基础架构厂商、新兴软件厂商和一些基于开源平台的厂商,提供大数据收集、存储、提取、分类、分析、报表、商业智能等某几方面的功能模块。”

   事实上,存储巨头EMC对大数据也一直在摇旗呐喊。EMC董事长、总裁兼首席执行官乔·图斯曾对记者表示,大数据已不仅停留于概念,数据大爆炸催生了社会各界对数据分析的需求。他还预测,大数据的发展必将影响职场,未来,拥有一个数据科学(Data Science)学位将比拥有一个计算机科学(Computer Science)学位更有市场。

   在华为看来,大数据解决方案和传统IT相比面临一些新的挑战,首先,大数据应用的数据量很大,并且是有一个逐步积累的过程,要求无论是存储能力和计算能力都需要按需可扩展;其次,大数据由于数据体量庞大,数据移动面临困难,要求应用程序就近计算,结果输出;第三,存储面临着成本压力问题,重删、备份及归档一体,可大幅降低存储成本。