童小军：阿里云+Hadoop让大数据平民化

程序员文章站 2022-09-21 13:23:25

　　云计算正在深刻地改变企业IT的应用模式，以及整个IT产业的格局，同时也给了在ICT产业后发的中国企业带来很大的机遇。在中国市场，众多公司加入了这个行业的角逐，并逐渐成长壮大，也为开发...

　　云计算正在深刻地改变企业IT的应用模式，以及整个IT产业的格局，同时也给了在ICT产业后发的中国企业带来很大的机遇。在中国市场，众多公司加入了这个行业的角逐，并逐渐成长壮大，也为开发者、ISV/SI及企业用户带来新的更多的选择。阿里云就是其中的一家竞争者。

　　阿里云开发者大会近日在杭州召开，在大数据与大规模计算专场上，EasyHadoop开源社区创始人童小军介绍了基于阿里云平台低成本地构建Hadoop百亿级大数据分析系统的经验，他表示，通过阿里云和Hadoop的结合，希望整个大数据的处理走入一个平民化的时代。

　　童小军：阿里云+Hadoop让大数据平民化
EasyHadoop开源社区创始人童小军

　　业务系统为什么需要Hadoop技术？

　　Hadoop是当前公认的处理大数据的首选解决方案，从命名就可以看出，让大数据更简单，就是EasyHadoop开源社区最基本的思想。童小军把Hadoop技术称为合的技术，他表示，虚拟化能把一大块技术分成小集群，Hadoop是把小集群组合大技术，实行集群。我们在Hadoop技术里面有BSP模型、MPI模型，最新的是数据有4000台的应用量。

　　童小军总结，用的最多是数据业务，数据业务系统，他们之间的规律和本质，最核心的合是数据统计，每个公司是数据部门，这个数据部门在互联网公司有人员，搜寻需求交给研发部门，研发部门提交给测试部门，最后上线，最后推动数据系统汇总到统计部门，这中间起了一个什么作用？把各个把部门假期起来的桥梁作用，因为我本身是学自动化出身的。我们把闭环结构总结一下就是控制器、伺服器、反馈器，反馈力度越细的话，准确性对于数据的分析是不是更准确地做反馈决策，还有成本是不是更廉价。我们把Hadoop这个技术更多是带给大家降低了时间和机会成本，大家有更快地速度算出来，同时提供了更多的机会更多是释放了想像空间。我们原来没有去做的事实这个技术的时候，我们很多敢想，不敢去做，我们分析一个月数据，在当时我们分析一个月的数据我们要两三天，有了Hadoop技术之后，我们把周期缩短到几十分钟。

　　我们有一个广告，在构建的中间，广告研发部门有自己的思路，最终发现在数据有Hadoop系统，Hadoop系统也给我们数据团队带来更多的机会。总结了一下Hadoop系统之前数据的结构，我们总结一下Hadoop之前和之后的情况，再生Hadoop之前我们有很多数据服务器接受，中间经过好几层的仓库系统，最后报表反馈给技术人员。这中间周期是按天来算的，中间必然面临数据的准确性，到了中间我们可能求下用户的总数了，对用户细节分析再去分析很就很困难。因为每层都许多建设，这些都是成本，如果前段的业务需后反馈了一个需求，我们每一层都要去改。

　　我们说下Hadoop之后的数据仓库结构。在Hadoop之后，我们设计这么个数据仓库，把数据通过跟快速地导入Hadoop集群里面，同时我们有一个SQL的查询结构，其实可以直接通过这个界面快速地夺取数据，这个时候周期整个是小时级别，不像之前是天级别，当然这个还可以改进。力度因为我们中间所有的数据都保存了，这中间力度会更细，中间把大量的数据都保存，中间要分析，因为参数可以自动地迭代，作出的决策更准。这个整个成本可以更好地扩容和扩展。

　　说到这么多好的时候，Hadoop有什么优势，解决了什么问题。这里有很多台机器，不同的机器分析的时候，也天生文件可以做切分，这个时候在这台机器上任务切分之后，一堆数据计算，这是一个很重要的思想。而不是把数据推动分裂。中间经过MAP进行初步处理，最终会把数字转换成大的的文件夹，这个文件夹就是最终的结果。最大化地利用本地性计算，网络的通信导致lanuch这种延迟。

　　案例：性能与成本实测

　　有哪些用户需要合的技术呢？童小军举了两个案例。第一个是游戏行业一家公司，有生10 GB的用户数据，每款游戏上面都有一个数据库，通过每台计算机运算导致到用户里面。因为他们中间需要计算的分成，他们有一套BI系统，大家也知道这么多机器成本很大的。能够实时地把数据传送到一个大规模集训里面，我们整了一个Hadoop集权做了一个测试。这块可以很快地机遇基于阿里云ECS平台。这个我会跟大家做一个各种时间和成本的分析。因为把数据到给云运营商以后，这些数据很难取出来的中间数据的丢失，所以无法做更细致的行为，在这改造之后能解决。

　　第二个例子来自于城市交通，这个交通系统每年会产生一百亿的车牌号的数据，他们原来计算是小时级的计算，他们希望到秒级的计算。我们后面一个阿里云一百亿的车牌号的测试，类似于这种需求，其实很多行业都需要，现在分布式计算一块，从搜索开始发源，到社交网络，互联网公司逐渐地领域延伸到民生，像电信、医疗、交通、*等等

　　基于阿里云的平台做的Hadoop测试效效果怎么样？我们宣传的服务器是80个核心，数据机所有磁盘加起来是10个TB。基于这个平台，我们建立其一系列的分析，我们分析一下我们的报告。中间这一层对于我们来说都是不透明的，我们会通过一个Hadoop去查询，然后进行计算。这个参数我们选择的是副本数，每一台机器最大会起6个MAP。下面还有一些参数，类似于reduce。基于这一类的配置，我们再看看一下Hadoop的节点，Hadoop大概可以在20分钟把20台机器全部完成，这通过安装页面来管理。在做这个测试之前我们会生成100车牌号，通过100个文件我们跑一个Hadoop的外部随机生成的数据。大概整个数据集每一行都比较少。

　　(PPT)我们看一下这个界面，整个集群的容量很大。通过这种方式我们提供查询，进行测试。

　　(PPT)这个测试的报告是这样的。我们匹配一个ID，我测试了一下1亿的数据会启动100亿的数据，大概会在170秒返回，大家看返回的速度并没有发生很大的转变。到100亿滞货，速度达到将近5000万行的扫描速度。

　　我们做一下方案对比，也这一类的数据，电信行业利用IBM的组合千万、百万时代，如果我们通过Hadoop云的方式，总的成本是15.9万就做了，选用这个方案我们会降低很多。如果通过Hadoop的话，这需要大量的人才培养学习，这中间大概需半年的时间，如果通过Hadoop云的话，应该只要几个月，甚至是几个星期。

　　维护成本我算一下，中间设施了很多的流程，在云时代服务好的话，我们有统一的人员管理，整个维护周期会缩短。希望阿里云提供一个接口，我们还有一些算法去测试。现在我们通过云服务器操作云服务器，也一个很安全的控制方法的话对几百台的主机资源是必要的，中间这块存储成本希望能够降低。这个方案有一些技术完善，中间有一个海量数据的接入。还也一些外部生态系统的完善。下一步有些测试，我会测试、对比一下，进行更详细的配置。中间也一些问国际标准，我只有有一个CDPE的集合，我希望更标准地测试Hadoop。其实Hadoop打开了想像空间，这是我们Hadoop解决的难题，整个开源生态地图里面，我们希望开放更开放的平台，部署各个平台上，向外有很多应用，有一些软件的功能。我们希望Hadoop易用性发挥到极致。

　　童小军最后表示，我们中间也复杂了数据三个大条件，就是大数据、大集群、大应用。阿里云这块也给我们做了大量的支持，最后感谢奋战在Hadoop一线的人员，还有感谢阿里巴巴、雅虎等公司。通过阿里云和Hadoop的结合，我们希望整个大数据的处理走入一个平民化的时代，谢谢大家的支持!

上一篇：软件未适配！MacBook Pro刘海把菜单栏给挡住了

下一篇：为您的云计算平台选一个合适的API