欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Flume-1.7.0文档翻译-中英文对照-概览

程序员文章站 2022-05-12 10:05:15
...

Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据

   Apache Flume是一个高可用的分布式系统.可以从多种不同的数据源高效的收集大量log数据至起*数据仓库中.

   Flume不仅仅可以用于收集log数据.由于数据源是可以自定义的,所以Flume可以用作传输大量复杂的事件数据,包括但不限于网络流量的采集,社交媒体数据的采集,电子邮件信息的采集,以及传输其他众多种类数据,正因为sources是自定义的,flume让这些成为了可能.

  Apache FLume 在Apache 基金会中是一个*项目.

  现在有两个发布了的产品线,版本号0.9x 和 1.x.

  本文档适用于1.4.x产品线.

  推荐使用1.x版本的flume,因为在1.x中flume更好的融合了新的技术,提高了性能,提升了配置的灵活性.
Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据

1.jre要求-1.7或更高

2.内存要求-source,channel,sink用到的内存要有充足的空间

3.磁盘空间要求-channel或sink用到的磁盘需要保证磁盘空间充足

4.目录权限-对于agent用到的目录要有读写权限


Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据

    在Flume中具有有效载荷的字节以及可选择的字符串属性称为一个flume事件.flume中agent是一个java进程,由它将事件流从寄主某个部件的外部数据源转发或运送到下一个目的地.

    Flume的Source组件可以处理外部资源如web服务器.外部数据源通过发送特定格式的事件到Flume中,可被Flume识别为Flume的source.举个例子Avro Flume Source可以用作接受从Avro客户端或其他Flume agents发送来的rpc数据流(从AvroSink发送出的事件).一个简单的流可以通过Flume的第三方协议使得第三方的FlumeSource从第三方的Sink或Flume第三方RPC客户端或第三方客户端发送来的数据(可以基于任何语言,只要满足该协议即可).当Flume的Source接收到一个事件时.它可以将该事件存储到一个或多个channel中.Channel是被动接受消息的,它在接收到事件后会一直缓存住该事件,直到该事件被Flume的sink组件消费.File Channel就是一个很好的例子-它基于本地文件系统.sink将会从channel中接收该事件,然后把这个事件存储到外部的仓库中,如可以存储到HDFS中(通过使用Flume HDFS Sink来完成此功能)或者继续通过下一个FlumeAgent将该事件流转发到Flume source组件中.Source或Sink在Agent中异步的将事件存储在channel中.


Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据

  当事件到达最终目的地前需要穿过多个agent,Flume允许用户构建一个多级的流.所以Flume呢同样允许扇入/扇出,上下文路由,故障切换等功能.


Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据

  对于每个agent来说,事件是分段存储在channel中的.然后事件流将会分发到下一个agent或者最终的数据仓库(如HDFS).只有在事件存储到下一个agent的channel或者最终的数据仓库时,该事件才会从原有的channel中删除.这就是Flume可以对流提供可靠地端对端的保障机制.

  Flume使用一种传统的方法去保证事件分发的可靠性.对于这些将被放入channel的事件,Source或Sink的存储或转发会封装在一个事务中.从而保证了事件在流式点对点处理中是可靠地.在多个流的情况下,sink将会开启事物处理,从而保证这些事件从前一个hop到下一个hop是安全可靠的(hop我猜的意思可能是agent?).

 
Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
 

  事件将会存储在Channel中,从而可以在发生错误或失败时将该部分数据恢复.Flume通过操作本地文件系统,支持了可持久化的FIleChannel.当然,也有很多MemoryChannel,她们能够很简单的将事件存储到内存队列中,速度也很快,但是如果agent进程被杀死时,仍有事件存留在MemoryChannel中,那么这部分事件将不能恢复.

 

  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 128.6 KB
  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 32.6 KB
  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 123.5 KB
  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 21.3 KB
  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 58.9 KB
  • Flume-1.7.0文档翻译-中英文对照-概览
            
    
    博客分类: flume大数据 flume大数据
  • 大小: 27.2 KB
相关标签: flume 大数据