欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  网络运营

解析百度开放云分布式计算平台对大数据的处理

程序员文章站 2022-04-07 14:30:09
这篇文章主要介绍了解析百度开放云分布式计算平台对大数据的处理,讲到了MapReduce 和BML机器学习等干货,需要的朋友可以参考下... 16-02-02...

在百度开放云总经理刘旸看来,当今世界正面临着由技术突破带来的全行业升级,在这场商业剧变中,背后是三个重要的「重新定义」:第一,云计算重新定义了「it」。它改变了企业所需要的 it 资源的拥有与供给的方式,基于互联网级的资源管理平台,彻底改变了传统企业的 it 模式,为新的商业创新提供了可能;

第二,大数据重定义了「资产」,相较于以往的重资产,企业在经营中不断生成的数据,将成为企业未来继续生存并保持竞争力的砝码;第三,人工智能重定义了「效率」,通过语音、图像、视频、自然语言识别和智能处理等技术,让传统的计算机具备更为强大的能力,大幅提升工作效率。

基于以上三个重新定义,百度开放云的重新堆栈也分为三层:云计算层、大数据应用层、和人工智能层。

处理大数据无非以下四个步骤:

收集:原始数据种类多样,格式、位置、存储、时效性等迥异。数据收集从异构数据源中收集数据并转换成相应的格式方便处理。
存储:收集好的数据需要根据成本、格式、查询、业务逻辑等需求,存放在合适的存储中,方便进一步的分析。
变形:原始数据需要变形与增强之后才适合分析,比如网页日志中把ip地址替换成省市、传感器数据的纠错、用户行为统计等。
分析:通过整理好的数据分析what happened、why it happened、what is happening和what will happen,帮助企业决策。

其实,如果涉及到“大数据”,不得不提百度最大的业务——搜索。百度搜索已经收录全世界超过一万亿的网页,每天响应中国网民大约几十亿次的请求。除此之外,百度还有另外20多个用户过亿的产品线,而且各个产品底层的大规模数据处理,都需要使用百度团队维护的大数据处理平台。
解析百度开放云分布式计算平台对大数据的处理

百度分布式计算平台:离线引擎优化

关于mapreduce
解析百度开放云分布式计算平台对大数据的处理

首先介绍主要的离线计算模型——mapreduce,百度从2007年开始引进hadoop 0.15.1,随后快速发展,2011年百度的mr单集群规模达到5000台,到2013年已经多达1.3万台,这也是截止到目前为止全世界最大的单集群。hadoop全集群规模为10万量级, 作业量达到了百万量级,日均cpu利用率超过80%,远超业界同行,百度开放云()底层依赖的大规模集群调度、资源隔离等技术能力世界领先。除了在规模方面不断扩大,百度一直在hadoop性能分析方面进行了大量的优化。2013年的测试结果显示,百度内部mr实现相比于开源hadoop性能提升30%。典型优化,例如hadoop中的shuffle,百度将其做成一个统一的shuffle服务,不再占用map或reduce槽位。比如对关键热点函数采用sse向量化等。
解析百度开放云分布式计算平台对大数据的处理

2014年,百度继续对计算引擎做了大幅优化, native c++实现的dag引擎正式上线。下图是一个 4轮mr job实现的典型业务流示例,dag引擎上线后,可以优化成一个dag作业,可以避免3次reduce写多副本引入的磁盘io及网络io,还可以规避2次map读hdfs的io以及处理耗费。
解析百度开放云分布式计算平台对大数据的处理

下图是一个真实业务由sql计算表示层翻译下来的,基于mr引擎时,sql会翻译成25个mr job,如果百度把它优化成dag,能够避免很多次磁盘io操作。在优化之后,运行时间直接缩减到1个小时,优化前后的差异非常显著。
解析百度开放云分布式计算平台对大数据的处理

内存流式shuffle

2014年,百度对shuffle进行重大重构,初期实习生同学完成的demo以baidusort名义参与了2014年sort benchmark大数据排序国际大赛,并获得冠军(2015年百度没再参加,国内其他公司以同样技术通过更大规模集群刷新记录)。2015年,新shuffle技术完成全面上线。hadoop默认shuffle实现为基于磁盘pull模式,计算过程显式分成map、shuffle、reduce过程;baidu研发的新shuffle采用内存流式push模式,map端完成部分记录处理后直接从内存中将计算结果推送给下游。
解析百度开放云分布式计算平台对大数据的处理

举例来说,map处理256mb输入数据,在内存流式shuffle模式下,处理完100条记录以后,直接通过内存推送到下游,这样就形成流水线方式处理。不再有显式的shuffle阶段。

目前,该shuffle组件为通用组件,正逐步推广到其他分布式计算平台中。

百度分布式计算平台:系统架构演进

前面重点介绍了百度开放云bmr服务中涉及到的规模、性能方面优化思路和效果,接下来跟大家一起分享一下,百度遇到的整体架构方面挑战以及优化思路。

2012年系统架构中,最主要的两个离线计算平台,左边是以mapreduce模型为主的批量计算平台bmr,右边是mpi /bsp模型为主的大规模机器学习平台bml。从最下面可以看到,mapreduce和mpi模型底层硬件就有较大差异。hadoop分布式文件系统多副本以及强大的故障处理机制,使得raid卡完全没有必要,采用多块超大容量sata硬盘非常适合。

而mpi差别较大,mpi是一个消息传输框架,它在设计之初就没有考虑太多异常处理,因此它对底层系统可靠性要求非常高。百度采用了非常高配置的服务器,例如带raid卡的sas硬盘,超大内存、万兆互联等。
解析百度开放云分布式计算平台对大数据的处理

bmr hadoop由大量sata硬盘的服务器构成,存储系统为hdfs,资源调度层面百度有自研的调度器ark(与社区yarn比较类似)。而bml大规模机器学习平台上,支持的业务样本超过数百亿计量级,特征规模也远超百亿。百度在运行机器学习时,需要先启动mapreduce,然后再将数据从hdfs分发到各个mpi节点,这种方式对网络带宽的要求很高。
解析百度开放云分布式计算平台对大数据的处理

系统部同事持续改进内网带宽的同时,bml平台层面也在思考应该如何解决跨mr和mpi俩大集群间的日益严重的网络带宽问题。

另外还有一个需求:mpi是一种事务性调度模型,比如一个业务需要200台机器,如果平台此时只有199台机器空闲,实际也很难用起来(除非修改提交参数,但涉及输入数据重新分块处理等比较复杂)。另外mpi计算往往显式分为计算、传输、计算等阶段(即bsp模型),因此资源利用波动性较大,例如cpu计算阶段,网络空闲;网络传输或全局同步阶段,cpu空闲。为解决这个问题,百度在mpi集群中引入idle计算,idle业务资源占用充分可控,典型的idle任务如mapreduce任务,而执行mr任务又会进一步加剧mr集群和mpi集群间网络带宽问题。

基于以上考虑,百度正式将mpi底层硬件替换为替换成高配置存储型服务器,硬盘同构,文件系统都采用hdfs,bml算法输入和输出均通过hdfs,不再是本地文件系统。

bml机器学习执行引擎层面,百度基于mpi封装了dvce(distributed vectorcomputingengine)分布式向量计算引擎,屏蔽mpi过于低层的编程接口,通过高层抽象自动翻译为mpi任务,这就是百度第二代专门针对“并行计算”开发的系统框架。
解析百度开放云分布式计算平台对大数据的处理

2014年,bml机器学习执行引擎迁移到elf第三代并行计算框架, elf采用parameterserver架构,大幅降低机器学习算法开发代价,对比于百度的第二代框架dvce,在开发效率方面有大幅度的提升。离线计算方面,完成了native c++ dag引擎上线,百度内部叫dce(distributed computingengine)。

2014年bmr和bml底层都采用matrix完成资源分配与隔离,其他平台如小批量计算系统taskmanager和毫秒级计算延迟的dstream系统,都基于业务需求特殊性,采用独立的资源隔离和调度系统。

2015年的架构改进,主要是将所有的计算模型均迁移到matrix+normandy架构。normandy兼容社区yarn调度接口,开源社区新型兴计算平台可以很轻松的接入到百度的计算生态里。
解析百度开放云分布式计算平台对大数据的处理

百度已经介绍了百度大数据分析和挖掘平台主要的底层引擎和架构,接下来谈一下最新思考。

系统底层是idc硬件,接着是matrix,再是normandy,然后是几个主要的引擎。之前介绍底层架构的统一,比如在硬件、调度、存储等方面的统一。实际上各个系统对外的结果,都有自己的接口,如果要使用mr,很多人写mr程序都是直接调用hadoop原生接口,配置涉及到的多个参数。部分业务还需要流式系统完成日志清洗,在经过mapreduce模型批量预处理,随后通过elf完成机器学习模型训练,最后再通过mapreduce模型完成模型评估,可见一个业务需要跨越多个模型,需要业务线同学同时熟悉很多模型和平台,而每一个模型又有各自特点和接口。只有足够了解模型的细节和接口后,才能真正的利用好该模型。
解析百度开放云分布式计算平台对大数据的处理

于是百度正式立项bigflow项目(原项目名dataflow,图片未来及修改),将模型的细节屏蔽。平台自动决定选择合适的并发度,甚至智能选择应该把这个翻译到哪个计算模型。bigflow可以支持多个不同的计算引擎(每个引擎在其适合的领域做到极致),充分发挥各引擎性能和功能。所以用户使用同一套接口,便能对应到不同的任务。由于采用高层抽象,业务开发效率获得大幅提升,代码量大幅减少,其维护成本也大幅降低。bigflow集成常见优化手段,因此将大幅提升平台有效资源占用。

百度开放云——大数据+智能

最后,向大家简要介绍百度开放云。2014年,百度正式决定将服务内部业务多年的云计算技术正式对外提供服务,即百度开放云,对应官网http://cloud.baidu.com。百度开放云大数据方面,bmr已经对外开放,而更多的大数据分析和服务都还未对外开放。bmr集群上可以做到按需部署,用户专享,更关键的是完全兼容开源的hadoop/spark平台,开放云客户基于hadoop、spark、hbase等已经实现的大数据业务几乎不用修改就可以平滑迁移到云上。多维分析服务palo,它完全兼容mysql网络协议,因此,客户朋友们熟悉的mysql client的工具均可使用。
解析百度开放云分布式计算平台对大数据的处理

同时,palo支持jdbc、odbc的编程接口,如果已有程序采用的是jdbc、odbc,那么迁移成本几乎为零。最后看到它与业界主流的bi工具商业分析的工具对接的,比如tableau、saiku、biee、r。

最后再介绍机器学习云服务bml,bml中提供的深度学习技术,曾获得2014年百度最高奖。bml提供端到端的解决方案,里面提供的算法均服务百度内部业务多年,典型如网页搜索、百度推广(凤巢、网盟ctr预估等)、百度地图、百度翻译等。

使用开放云bmr和bml、palo等,就可以立刻、直接享用与百度搜索同等品质的大数据分析和挖掘服务!
解析百度开放云分布式计算平台对大数据的处理