Cascading：一个简单的Hadoop MapReduce应用

程序员文章站 2022-04-16 21:05:36

...

Cascading是一个架构在Hadoop上的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用，而不用考虑背后的MapReduce。

Cascading目前依赖于Hadoop提供存储和执行架构，但是Cascading API为开发者隔离了Hadoop的技术细节，提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。

Cascading使用了“pipe and filters”(管道和过滤)来定义数据处理进程。它支持分隔，合并，分组和排序操作，这是开发者唯一需要考虑的操作。Nathan Marz提供了一个范例：Goodbye MapReduce, Hello Cascading. Cascading对于使用Hadoop开发复杂应用是一个不错的解决方案。

这篇文章详细解释了Cascading整个架构和技术细节：A technical overview of the Cascading system

介绍Hadoop和MapReduce：

Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用，如亚马逊、Facebook和Yahoo等等。它主要由MapReduce的算法执行和一个分布式的文件系统HDFS等两部分组成。

HDFS：即Hadoop Distributed File System (Hadoop分布式文件系统)
HDFS具有高容错性，并且可以被部署在低价的硬件设备之上。HDFS很适合那些有大数据集的应用，并且提供了对数据读写的高吞吐率。

MapReduce：MapReduce是Google 的一项重要技术，它是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。至少现阶段而言，对许多开发人员来说，并行计算还是一个比较遥远的东西。MapReduce就是一种简化并行计算的编程模型，它让那些没有多少并行计算经验的开发人员也可以开发并行应用。

以上介绍来自：http://www.cnblogs.com/wayne1017/archive/2007/03/18/668768.html

Cascading：一个简单的Hadoop MapReduce应用

Kotlin入门实战：2、 Android 创建一个简单的 Kotlin 应用程序

【MapReduce】一个没有足够经验无法解决的简单基础MapReduce问题

使用最基础的Node，创建一个简单的node.js应用

Spring Boot Tutorial - 引导一个简单的应用程序

WCF学习——构建一个简单的WCF应用（一）

WCF学习——构建一个简单的WCF应用（二）

如何开发一个简单的Akka Java应用

使用Vue做一个简单的todo应用的三种方式的示例代码

一个简单的星期枚举类及应用

Vue 2.0+Vue-router构建一个简单的单页应用（附源码）