应该何时把大数据迁移到云上
云对每个人来说都是又大、又白、又轻柔的梦境。当有人说他们的大数据战略是“把全部投入云端”时,你无法确定他们是否是一个有远见的人,或仅仅是重复一个专家在一次行业会议上告诉他们的事。
大数据和云范例之间实际的重复非常广泛,你可以宣称你正在一个内部部署的Hadoop、NoSQL、或企业数据仓库环境下处理基于云的大数据。请记住云被广泛理解为包含“私有”部署以补充或代替公共云、SaaS、和多租户托管环境。
但是如果你把云的实际定义限制于公共订购服务内,你就能找到问题的核心:识别哪些大数据应用相对于内部部署更适合公共云/SaaS 部署(比如那些涉及提前优化的硬件设备或虚拟服务器集群的应用)。
换句话说:你什么时候可以通过引进一个外部服务供应商为你管理它们,从而提高大数据的可扩展性、灵活性、性能、成本效益、可靠性、以及可管理性?以下是一些明确的大数据在公共云中的使用实例。
已经在云中托管的企业应用程序:如果和许多企业一样——尤其是中小型企业——你使用了一个外部服务供应商提供的基于云的应用程序,许多你的源交易数据已经被置于公共云之上。如果你在这个云平台上有更深入的历史数据,那么它可能已经积累至大数据级。如果外部服务供应商或它的合作伙伴之一提供了一个增值的分析服务——如客户流失分析、营销优化、或客户数据的异地备份和归档——那么利用这些服务会比将这些数据置于内部来得有意义。
需要相当大的预处理能力的大容量外部数据源:例如,如果你打算通过监测社交媒体数据的聚合输入来分析客户的情感,内部的服务器、存储、或带宽容量可能无法很好地为你完成这项任务。这是一个明显的关于应用程序的例子,在这里你会希望利用一个基于公共云的、大数据驱动的服务所提供的社交媒体过滤服务解决问题。
超过你内部部署的大数据处理能力的策略型应用程序:如果你已经有一个专门为某个应用程序内部部署的大数据平台(比如高容量非结构化数据源ETL专用的Hadoop集群),那么使用一个公共云来处理当前平台所不适用的、或是按需服务会更健壮或划算的新的应用程序(例如多渠道营销、社交媒体分析、地理空间分析、可查询归档、弹性数据沙盒技术)可能会更行得通。事实上,如果你需要尽快获得PB级规模的、流媒体的、多结构的大数据处理能力,那么一个公共云产品可能是唯一可行的选择。
非常大但只是短暂存在的沙盒的弹性供应:如果你有一个短期周转的短期数据科学项目,而这个项目需要比惯常大一个数量级的探索型数据集市(又名沙盒),那么云可能是你唯一可行或可以支付的选择。你能够很快在项目期间运作基于云的存储和处理能力,然后当项目结束时又可以很快的取消之前配置的一切。我称之为“泡沫集市”部署模型,它是为云量身定制的。
如果你已经有过这其中任一的经历,那么基于云的大数据的战略问题就不是你该从何开始。随着基于云的大数据服务逐渐成熟以及性价比(包括性能、可扩展性、灵活性和可管理性)不断提高,这个问题将会是你该在哪结束。到本个十年的末期,随着越来越多的应用程序和数据迁移到公共云上,建立和运作你自己的大数据部署的想法似乎如同现在你想设计自己的服务器一般不切实际。
上一篇: 张瑾:推动大数据应用 *应做好自身定位