Facebook推高效查询引擎Presto

程序员文章站 2024-02-08 11:43:34

...

在Facebook总部的一次开发者会议上，这个社交网络巨头的工程师透露，他们正在使用新的自主研发的查询引擎Presto，在已有的250PB的庞大数据仓库上进行交互式分析。

据Martin Traverso工程师透露，有超过850名Facebook工程师每天用它来扫描超过320TB的数据。在以前，我们的科学家和分析师一直依靠Hive来做数据分析。但Hive是专为批处理设计的。但随着数据越来越多，Hive已不能满足我们的需求。虽然我们还有其他比Hive更快的工具，但它们要么在功能有所限制要么就太简单，以至于无法操作我们庞大的数据仓库。而在过去的几个月中，我们一直使用Presto来填补这方面的空白。

Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。因为它主要依赖MapReduce进行运行，所以随着年龄的上升，其在速度上已不能满足日益增长的数据要求。浏览一个完整的数据集可能要花费几分到几小时，这完全是不切实际的。

Traverso还表示，使用Presto进行简单的查询只需要几百毫秒，即使是非常复杂的查询，也只需数分钟即可完成，它在内存中运行，并且不会向磁盘写入。

虽然看起来Presto如同Facebook版的Cloudera Impala SQL查询引擎，或与Hortonworks在Stinger项目中所做的事情相似，但这是按照Facebook规模为实现更快操作而定制的版本。Presto并不会与其他商业产品进行竞争，但它会很快让大数据行业产生不小的震动。并且Facebook打算在今年秋天以开源的形式发布Presto。

Facebook的工程经理Ravi Murthy表示，随着用户量地不断增长，数据仓库也在快速增长，它比四年前要大4000倍。Murthy 也表示，在接下来几年，数据将会达到艾字节。因此，为了适应这种数据规模，我们不得不重新考虑许多东西。

Presto则是其中之一，除了提高查询速度，在CPU使用效率上，这个引擎比Hive高效7倍。另外一个正在进行的项目是缩减Facebook数据中心的分析数据空间。

对于Facebook最新推出的查询引擎Presto，微博上的各位大神又有哪些看法呢？

原EMC中国研究院大数据实验室负责人大数据皮东：Facebook最新的交互式大数据查询系统Presto，类似于Cloudera的Impala和Hortonworks的Stinger，解决Facebook迅速膨胀的海量数据仓库快速查询需求。Facebook针对Exabyte规模数据正在开发新一代大数据系统，Presto是其中的数据仓库交互查询系统，应该还有海量存储系统。在这个级别，很多设计需要考虑！

新浪CTO兼联席总裁许良杰Jack：社交网络和社会化媒体催生了真正的大数据（Big Data）平台。新浪微博也不例外……

英国利兹大学计算机及语言学研究员，搜索项目博士后研究员vinW：1. presto秋季会开源；2.比hive快七倍；3.基于内存

Launch_Bruce：FaceBook不是搜索引擎，对实时性的要求更高，即使当初推出Hive，也只能是权宜之计。这属于Hadoop的基因，Hadoop必将会让很多没有深度思索盲目上马的项目最后举步维艰。但是显然Hadoop成功的生态系统也会害了不少人。

TeslaElon：加油！Big Data会衍生出很多商业机会。尤其是与最大的电商平台阿里巴巴以及最大的视频平台YOKU潜在的合作值得期待。另外Sina投资了不少微博上的火爆应用，很多机会，后面看Sina研发和管理以及销售如何做好。

搬运大数据的亨利：大约五年以前做大数据分析，我们的MPP产品就已经有这些策略了。当时，最大的问题是大数据在互联网，但这些明星企业不爱花钱购买只爱造*。还是电信客户好，他们愿意花钱采购而不是造*。

英文来自：gigaom.com

相关标签： Facebook 推高效查询引擎 Presto 在 Facebook 总部的一次开发者会议上这个社交

上一篇： apache不支持 xml如何解决

下一篇： ThinkPHP 3.1.3及之前的版本存在一个SQL注入漏洞

Facebook推高效查询引擎Presto

Facebook推高效查询引擎Presto

解析Facebook的数据库查询引擎Presto在美团的应用

Facebook推高效查询引擎Presto

解析Facebook的数据库查询引擎Presto在美团的应用

Facebook推高效查询引擎Presto_PHP教程

Facebook推高效查询引擎Presto_PHP教程