欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

ODCA发布厂商中立的大数据新指南

程序员文章站 2022-10-18 16:06:56
究竟什么是大数据?答案多种多样,其中Gartner著名的3V特征是最常被引用的定义——大数据是指高容量、高速度、多样性的信息,需要新的工具来管理。尽管如此,对于大数据的定...

究竟什么是大数据?答案多种多样,其中Gartner著名的3V特征是最常被引用的定义——大数据是指高容量、高速度、多样性的信息,需要新的工具来管理。尽管如此,对于大数据的定义,仍然存在模糊,开放数据中心联盟(ODCA)试图通过其最新的“大数据消费指南”来帮助企业解答什么是大数据、为什么它会如此重要以及如何从中获益。

ODCA创建于2010年,其主要目标是为云计算开发开放标准。在接受电话采访时,ODCA负责人表示,该联盟的“大数据消费指南”是对其云计算工作的合乎逻辑的延伸。ODCA首席技术顾问John Pereira表示:“现在存在很多云计算范式,这也是大数据环境想要利用的优势。”

Pereira指出,大数据的本质非常适合云环境中,特别是大数据的数据量可以在很短的时间内显著增长。

他补充说:“由于大数据的这种性质,你可能会考虑一个分布式的环境,而云计算范式将帮助你朝这一方向迈进。”

该消费指南总结了大数据平台如何可以帮助各行各业。例如,银行可以关联来自多个不相关来源的数据,以发现潜在的信用卡欺诈。此外,该指南还提供了统一的定义和术语,可供企业在与大数据服务供应商合作时使用。

该指南还引用了来自IDC的惊人的统计数据:非结构化数据占当今企业内信息的90%以上,其中大部分存储在文档、电子邮件、文本和web内容中。

属于“大数据”的非结构化数据包括来自传感器的机器生成的数据、机器日志和手机GPS信号,以及来自社交网站和网上交易的数据。

该消费指南将Apache Hadoop称为“领先的大数据技术”,但指出还有很多其他开源大数据项目也可供选择,包括Riak、MongoDB、CouchDB、Redis、Hypertable、Storm、Spark和高性能计算集群(HPCC)。

“我们正在尝试将厂商中立的方法引入到我们的建议和方向中,”Pereira表示,“我们尽量避免倾向于某个特定的供应商。”

这名ODCA负责人表示,企业需要提前仔细规划自己的大数据战略,以避免浪费资源和金钱的不良做法。

“你想要以最有效的方式来写入数据,而不是一遍又一遍地复制相同的数据集,你如何记录前面的信息是非常重要的,”ODCA执行董事Marvin Wheeler表示,“这主要是关于如何写入数据,以确保数据不会像在传统方法中那样到处蔓延。”处理数据蔓延是企业面临的关键问题。根据麦肯锡全球研究院表示,17个美国业务部门中有15个部门比美国国会图书馆存储的数据更多。并且,一些研究人员估计,90%的数据产生于过去两年中。越来越多地使用视频分析技术就是一个例子。

“如果你回到五年前,谁会想到保存视频,以及对视频进行分析以做出更好的商业和购物决定,而现在,这已经成为每个人的想法,”Pereira 表示,“这完全回溯到大数据的核心,这也是让大数据作为有趣的新技术和范式的原因之一。”