“大数据”会变成另一朵“云”吗?
继“物联网”“云计算”之后,“大数据”成为了炙手可热的科技“新贵”,不少地方*纷纷提出率先布局大数据产业、建设大数据中心。
大数据时代来临意味着什么?*和业界如何应对大数据时代带来的变革和挑战?科技日报记者就相关问题采访了专家和业内人士。
大数据不只是“数据大”
究竟什么是大数据?中国工程院院士、工信部通信科技委主任邬贺铨认为,随着互联网的出现和发展,数据量每年以40%的速度递增,超过了现有计算机硬件和软件的处理能力,于是人们将无法在容许的时间内用常规软件工具对其内容进行抓娶处理、分析的数据集合称之为大数据。
多大规模的数据才算大数据?“大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十个TB(百万兆字节)和几个PB(千万亿字节)之间”。
也许你并没有意识到,大数据在日常生活中已不鲜见。邬贺铨举例道,比如一个城市里有几十万个摄像头,单个8兆比特每秒的摄像头一小时就产生3.6GB(千兆字节)的数据,一个城市几十万个摄像头一个月拍摄存储下来的数据量就达到PB量级。再比如,医院一天要做很多例CT检查,一幅CT图像几百兆字节,一个病人可能多达两千幅CT照片,加上病人数据需要保存几十年,自然产生非常庞大的数据量。“大数据已经渗透进了生活的每个角落,基于此,我们才说大数据时代已经来临。”
大数据只是数据大吗?显然不是。牛津大学教授维克托·迈尔-舍恩伯格在他与人合著的《大数据时代》一书中写道:人们在大规模数据的基础上可以做到的事情,在小规模数据的基础上是无法完成的。
大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉。
对此,邬贺铨也表达了相同的看法。“数据量大到一定程度,可挖掘价值超乎想象,是受样本数量所限的小规模数据难以比拟的。因此,世界经济论坛去年发布的报告指出,大数据就是新财富,价值堪比石油。”
大数据带来大挑战
身处大数据时代,如何收集存储海量数据,并将一堆庞大的看似毫无关联的“冰冷”数据转化成帮助决策的利器,无疑考验着人们的智慧。
正如邬贺铨所说,尽管大数据时代已经来临,但这并不意味着我们真正掌控了大数据,在大数据的收集存储和挖掘分析上,还有很多技术难题需要去攻克。
数据类型繁多是大数据的一大特点,文本、图片、视频等各类数据的标准、结构形式不一,数据采集的实时性要求等都增加了采集整合的困难。由于数据量太大,传统的集中式数据库、数据仓库系统已不能有效地处理大数据的存储和分析,需要分布式处理。
“我们现在都用低成本分布处理器,但低成本如何保证可靠性?另外,仅存起来也不行,如果没有标签,将来也找不到,还需要标签化,方便快速查询分析。”邬贺铨表示。
数据价值密度相对较低是大数据的另一大特点,如何在海量信息中快速完成价值“提纯”并以可视化结果呈现,需要在算法、人工智能等技术方面加以突破。相对于文本等结构化数据而言,照片、视频等非结构化数据处理难度更大,不能简单地通过关键词进行搜索分析,如何将各类不同数据关联起来处理也是一大难题。
邬贺铨指出,“在大数据的分析挖掘上,一方面需要更强大的算法提升处理能力,同时需要通过人脸识别等人工智能技术研发,实现对图像数据的智能分析。”
大数据带来的挑战不容小视。2012年3月,美国*拨款2亿美元启动“大数据研究和发展倡议”计划,旨在提升从海量和复杂的数据中获取知识的能力。
邬贺铨介绍,围绕与大数据相关的科学问题,比如低成本大规模高可靠性存储、数据智能分析和挖掘等,国家973计划中已经并将会部署相关的科研项目。
发展大数据切忌盲目跟风
对于各地*纷纷提出率先布局大数据产业、建设大数据中心现象,邬贺铨表示,尽管大数据是个值得重视和关注的方向,但目前技术上并不成熟,各地不要盲目上马大数据项目、建大数据中心,以免重蹈云计算过热的覆辙。“我并不反对有条件的城市,由*主导来建大数据中心,只是担心一些地方没想清楚做什么,就盲目购买一堆硬件、软件设备,建好了没人用,造成资源浪费。”
在邬贺铨看来,云计算发展几年来成效不显著,很多地方建的云计算中心利用率不高,不少还仅仅是数据库,没有提供云服务的能力。
症结就在于起步太急,没有考虑清楚为谁建、建了做什么,一哄而上的云中心、云平台最后成了租不出去的“数据仓库”。“大企业有自己的数据库不需要租用,中小企业出于数据安全和成本的考虑也不愿意用。”
因此,发展大数据产业需要有明晰的产业规划,建大数据中心要有明确的用途和服务对象。邬贺铨认为,由*主导建立的大数据中心,首先应该用来分析*部门数据,比如交通流量、气象、医保等,帮助*部门决策。此外,面向企业应用时应首先考虑中小企业需求,开展有针对性的服务。
上一篇: 云计算引发第三场IT浪潮:安全成规模化发展最大瓶颈
下一篇: 大数据时代,你的一举一动或被“监视”