微软大数据:SQL Server任主力 Azure与Hadoop集成辅助
在不断激增的联网设备以及无处不在的网络连接的驱动下,视频、音乐及文本等数据早已呈现出无限膨胀的态势。近日研究机构Gartner更发表报告称,“大数据”将在未来十年内成为新的常规行业。目前包括谷歌、IBM、微软、EMC、惠普等众多巨头,已早早开始布局大数据,为在即将来临的大数据时代做好竞争铺垫。
如何利用海量数据为企业带来价值,是微软目前的主要专注方向,同时也是大数据的核心要素。通过数据的采集、存储、发送、处理及分析,帮助企业制定更有效的方针和政策,这在全球各企业中需求非常旺盛,全球50%的企业领导者都已有此种意识。微软亚太研发集团中国云计算创新中心总监王枫表示,微软在此方面已有不遗余力的探索。
“很多企业为了节省管理和运营成本,选择利用公有云,通过外网处理复杂数据,但这势必会带来安全问题。而若企业采用在内网监控下的私有云,既能保证数据安全,又能提高数据中心的效率。”王枫谈到,“如此看来,混合云可能是其中最好的方式。其可根据企业业务特性,制定哪些应用及数据需通过私有云处理,哪些需要通过公有云处理,而最终的数据管理存储则以私有云方式实现。”
如此便形成了微软的大数据思维:以SQL Server平台为主,并集成Windows Azure公有云与Hadoop系统,形成覆盖整个产业链的完整解决方案。
数据采集、数据存储、数据处理分析被微软视为大数据的三个生命周期,也是大数据至关重要的三个环节。尤其在存储环节,大数据的要求非常高,其安全性、不可间断性、可持久性与扩展性必须保证。据王枫透露,微软的大数据布局,主要以SQL Server平台为主。今年5月,微软刚刚发布了这一平台的2012新版本,其在保证数据不间断性方面表现优异。
SQL Server能处理的不仅仅是结构化数据,其他各种数据类型都能轻松应付,其甚至可以自定义数据类型。对于关系型数据,可利用各种技术进行查询和索引,如全文本查询、非结构化属性查询,之后也可通过各种技术进行管理及存储,从而更好地利用这些数据。不同于关系型数据的复杂性,非关系型数据则更注重数据的读取以及简单的属性查询,不需要太复杂的关系型操作。“SQL Server目前在存储非关系型数据方面,也有其性能、效率和操作上的便捷优势。”
数据存储到位后,需要将其包装成系统性的数据报告,形成对企业有价值的参考文件。王峰认为,类似于应用商店的概念,大数据也需要“数据商店”。在这个平台上,无论供应商、集成商、采集商、开发商,都可以将数据与其他企业共享,并享受这个平台上的其他各种数据资源。在Windows Azure平台上,微软除了有自己的数据商店外,还通过SQL Server与Azure的集成以及与Hadoop的集成,来充实其数据商店平台。公有云领域,微软靠Windows Azure成功占领了部分市场空间。如今国内PPTV的全球视频推送就是与微软合作,为其提供计算资源、存储资源及CDN服务。
此外,微软在大数据方面,除了拥有自身能独当一面的平台外,还与当今世界领先的分布式系统Hadoop进行了集成,从而为业界带来更更开源、更开放的平台。比如,微软将SQL Server的活动目录与Hadoop集成,进一步提高了数据的安全性。而通过云计算等主要管理工具与Hadoop的集成,使得其管理方式变得更先进更灵活。此外,微软通过SQL Server存储及商业智能等和Hadoop的集成,能够将Hadoop处理完的数据更好地呈现给用户。“微软与Hadoop的集成基本发挥到了淋漓尽致的地步。”王枫如此谈到。
微软大数据方案已能渗透产业链的方方面面,其可通过windows嵌入到每台设备中,为其产生的各种数据服务。近些年,微软大数据在世界各地已有诸多成功案例。中国作为微软非常重要的市场,成功的大数据案例也不在少数。例如目前正在成都投入运作的云计算中心,利用大数据平台、虚拟化、BI商业智能分析等一系列技术手段,实现了对成都猪肉从喂养到售卖的实时监控。据王枫透露,这一套云计算系统可在一周内完成部署,并能降低三分之二的部署开支。