大数据与HPC的大众化
近日,DataDirect Networks(以下简称DDN)公司首席运营官Erwan Menard先生接受ZDNet独家专访,分享了大数据和云计算领域的最新趋势和DDN的战略观点,从自身擅长的高性能计算开始,延伸谈到Hadoop、SSD以及云存储发展等话题,让我们从多个角度了解到这家私有公司在大数据时代下的一些动作。
转发 以下是本次采访的文字实录:
ZDNet:大家好!欢迎收看ZDNet视频访谈。我们知道今年大数据是行业内非常热的一个词,为此我们有幸地请来了DDN公司的首席运营官Erwan Menard先生,来给大家谈一谈大数据和云的一些趋势性的话题。Erwan Menard先生,一年半前贵公司的共同创办人Paul Bloch来到中国时,就提到了大数据的概念,当时业内还没有怎么提大数据这个词,但Paul也是主要把话题集中在高性能计算和媒体应用的领域。今年大数据已经成为了一个很广泛的词汇了,比较有趣的是像Intel这样的公司也把大数据和HPC做类比,认为它们有共同之处,不知道您站在DDN公司的角度,是怎么来看这个问题的?
Erwan Menard:说到大数据,DDN很早就在这方面做了。大数据从我们的理解来看是如何从大量的数据中抽取数据。因为我们很了解高性能也了解怎么高速分析数据,其他的一些厂家虽然谈论了这方面,但如何高速低成本分析大容量的数据对他们来说是一个挑战。DDN很早就在这方面做工作,也很好地理解了这方面的挑战,因此我们在这方面做得比别人早一点。
ZDNet:说到大数据,您刚才也提到了大数据是HPC的大众化。从现在整个市场来看,至少在国内大数据成为一个很普及的词汇了,很大程度上是来自互联网的推波助澜。像Hadoop很典型的做法是分布式,分布式计算、存储等等。其实我们看DDN的方案还是跟其他的存储厂商包括EMC等相似,把存储集中起来。您怎么看待这两种方式的区别?Hadoop配合集中存储方式的前景是怎样的?
Erwan Menard:一般他们部署Hadoop的做法是采用服务器内部的存储,然后整个做成一个集群。DDN从不同的角度,我们要提供一个系统能大规模,很容易扩展和管理。当Hadoop系统布置到一定的程度,有大量的计算节点,如何管理和使用是一个很大的问题,我们要做的是提供简单易用的技术,通过单一的控制台来管理所有的存储。两个月以后我们会发布Hadoop的解决方案,那时候我们会给你更多的资料。
ZDNet:您刚才提到了两个重点,一个是扩展性,一个是管理。还是回到Hadoop的问题上来看,其实传统的Hadoop反映的是计算和存储要靠近,计算要靠近数据,另外这不仅仅是把存储移动到计算的附近,比如分布式的Hadoop的方式,另外存储的处理能力也越来越强了,像有一些存储是可以在本地进行计算的充裕的工作。好像DDN也有类似的技术,不知道您怎么看待这种发展的趋势?
Erwan Menard:如果你有一个(Hadoop)集群,采用服务器内部的存储,那么计算和存储就被捆绑在一起,管理和移动数据就变得困难。如果将计算和存储的捆绑松开,调整工作负载就变得相对容易。我们可以更合理地使用这些集群节点,包括搭配节点的数量和存储容量,让集群更有效率。比如说两个月以后我们会公布金融方面的一个案例,他们的应用并不是只使用几个节点或者几TB的存储,他们的目标是一个系统里面最少是上百TB乃至PB级的存储,怎么和Hadoop集群搭配是我们要做的工作。
ZDNet:您刚才说的管理的问题,我们都知道分布式的存储,没有集*享的存储更好管理,包括底层的硬件管理。按照大家的想法所有提供共享存储的厂商都具有这个优势,譬如说以Hadoop为例,EMC也有跟你们类似的方案,这样比起来DDN在数据和设备的管理上有没有什么独特的地方?
Erwan Menard:首先,我们对竞争对手的产品不做任何的评论。以我们的观点来看,Hadoop要有好的性能,首先要有够快的速度和更好的存储性能、低成本还有高的IOPS,这方面DDN的产品和竞争对手相比有优势。另外,从存储本身来讲他们的产品如果是某些磁盘坏了的话,系统重建的过程中整体的性能会下降很多,整个来说因为性能下降对整个系统影响也很大。DDN的产品就没有这个问题了,磁盘的性能并没有多大的下降,所以提供的存储来讲是一个高性能、低成本的,这样整个Hadoop的系统性能也会高,还是那句话,两个月后我们会给一些具体的数据。
ZDNet:您也谈到了硬盘,我们也知道现在硬盘已经不是一个唯一的存储介质了,像SSD特别是像PCI-E的SSD甚至是内存计算在一些数据库、BI的领域已经得到了越来越多的应用。从另一方面来说,我们就不太清楚像我们所说的大数据市场如果不考虑BI环节,或者是HPC市场SSD的应用状况是怎样的?
Erwan Menard:谈到SSD,HPC和大数据也得到了一些应用,但大多数的厂家是把SSD单独地作为一层存储来应用,特别是PCI-E接口的SSD,在分层存储里应用得比较多,经常访问的数据放在最快的SSD里面,这样读写就更快了。他们的设计单独的一层SSD,还有一层SAS、SATA,DDN的产品可以混合使用这些,这得益于我们高速的存储。还有一个是分层管理技术,不需要移动数据就可以做到分层管理的功能。所以DDN这方面的应用会更广,而且得到的益处是很大的。正是由于DDN存储引领的功能可以混合使用、分层管理,这样使用SSD就可以更好地保证高带宽、高IOPS应用以及低成本。在平衡SSD和一般磁盘方面做到了既保证高带宽、高IOPS还有低成本,所以做到了混合应用,这就是DDN和别人不同的地方。
ZDNet:刚才说了半天都是大数据,其实大数据和云的结合也是业内的热点。这两个结合大家也比较容易想到云存储或者是网盘技术后台的支撑技术,其实国外有很多知名的云存储的提供商用的Hadoop的架构,也就是刚才我们所说的完全分布式的存储。国内也有类似的情况,比如说快盘用的是集*享的存储,但我们听的更多的还是用的完全分布式的存储,您怎么看待在云存储的基础架构领域这两种方向呢?
Erwan Menard:实际上我们首先要看工作流,说直白一点看你怎么使用。因为云计算有一种使用是数据写一次,主要是读,比如说备份、归档这种。另外一个应用就是根据服务的要求,你请求我给你提供快速的在线的文件共享、数据同步,从这两个角度来说是完全不一样的,因为从文件共享和在线同步既要性能还要高的带宽。所以,这两种应用也是有不同的。第二种面向于对象的存储更适合这种应用。这就是我们强调首先谈到云的设计,首先要知道你的工作流,也就是说你怎么来使用这是非常重要的。
举一个例子,有一个公司是做云服务的,所以他设计好了一个系统来找我们做。当然使用中容量在不断地增加,但性能就不能满足了。这样的话,因为你采用了传统的存储一般来讲用的IT存储性能就不是太高的,当你扩展到几个PB的时候性能就比较突出了。所以我们会建议你可以改用面向对象的存储,而不要使用传统的文件存储。因为它主要的服务是网络上的同步,这样就要求很高。这是一个建议。但如果是另外一个公司就不一样了,它一开始就涉及到面向对象的存储,计算应用就比较适合,完全要实现知道他的应用和工作流,这是最重要的,各种云系统的设计。
ZDNet:您刚才提到的文件共享还有对象存储、文件存储的一些区别,如果我们不考虑这两点,在一般的企业内部文件服务也仍然是一个很普及的需求,包括做高性能计算HPC市场这么多年,这个市场有很多需要文件的服务,这就引出来两个问题,一方面是DDN在文件系统的服务上跟IBM有转销关系,你们是用IBM的GPFS,另外IBM自己的SONAS集群文件系统又是用GPFS配DDN的存储,这相当于两个问题,第一你们在文件存储上总体的策略,如果不考虑云的话;第二,你们怎么处理和合作伙伴之间的关系,因为DDN有不少的合作伙伴?
Erwan Menard:选用不同的文件系统主要取决于应用。如果是一些大型国际实验室、超级计算机,比较喜欢开源的Lustre加上DDN的存储,对一些企业级的我们会选用GPFS,除了它可以提供并行文件以外还可以支持Windows的CIFS等等。这两个基本上是不同的对象。另外和IBM的关系我们的关系是非常良好的,我们使用它的GPFS对我们企业级、商业HPC应用。IBM在一些大的项目里,比如说当系统要求高带宽还有高的IOPS他们会选择我们,所以IBM是我们很主要的合作伙伴。SONAS是另外一块产品,跟我们基本上没有多大的竞争关系。
ZDNet:通过前面的一段访谈相信观众们对贵公司也有很浓厚的兴趣,站在我们的角度来说我们感觉DDN是比较低调的。DDN是一家私有公司,私有公司肯定在运营上有很多方便的地方,比如说不用太受投资人和股市的掣肘,可以做一些事情。对我们的角度来说信息就变得很困难了,因为你们没有披露。比如说去年Paul来的时候说DDN是第四大存储公司,可是我们不知道也不好查收入到底是怎样的,所以其实在我们眼里DDN还是有一些神秘的色彩,站在您的角度您可以把公司大致的情况包括私有化的公司运营的情况给大家介绍一下吗?
Erwan Menard:是的,DDN是一家私人公司,所以我们没有义务公开财务信息。但随着大数据市场的增大,DDN会有更多的机会。这几年DDN都是以25%到30%的速度在增长。未来我们可以看到大数据的增长给我们带来了更多的机会,所以我们现在基本上会变成单季度销售额超过1亿美元的公司,之后我们向10亿美元方向去发展。我们还在不停地公开我们的信息,比如说上个月我们公布的投资下一代超级计算机的研发以及其他的信息,之后我们会越来越多的公开我们的信息。
我们现在公开的资料不是很多,但我们会做得越来越好,会公开更多的资料。比如说前段时间研发之类的投资,还有一些新的跟全球性的研发机构的合作,我们会寻求更多有才能的人加入我们。两年前我们还是300多人的公司,现在已经接近了700人,将来我们会做更多的改善公开更多的资料。但总的来说私人公司公开的资料要比上市的公司要少,所以我们也会在这方面做一些改善。
ZDNet:今天从HPC大众化的话题开始,Erwan Menard跟我们分享了大数据和云市场最新的趋势,包括DDN这家公司做的一些有趣的事情,相信能够给更多的用户带来更大的价值,谢谢Erwan Menard!
Erwan Menard:非常感谢!