欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Flink DataStream API - Data Sources获取数据源

程序员文章站 2022-07-14 13:39:14
...
  • 基于文件获取数据源
    在底层,Flink将文件读取过程分成两个子任务,即目录监视和数据读取。每个子任务都由一个单独的实体实现。监视由单个非并行(parallelism = 1)任务实现,而读取由多个并行运行的任务执行。后者的并行性等于作业并行性。单个监视任务的作用是扫描目录(定期或仅扫描一次,这取决于watchType),找到要处理的文件,将它们分成几部分,并将这些部分分配给下游的读取器。读取器将读取实际数据。每个拆分只能由一个读取器读取,而一个读取器可以逐个读取多个拆分。
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 逐行读取文本文件,即符合规范的文件,并将它们作为字符串返回。
DataStream<String> dataStream = env.readTextFile(filePath)

// 按指定的文件输入格式指定读取(一次)文件。
DataStream<String> dataStream = env.readFile(fileInputFormat, path)

// 这是前两个方法在内部调用的方法,它根据给定的fileInputFormat读取路径中的文件,根据所提供的watchType
// 此源可以定期监视(每隔一段时间ms)给定路径文件中的新数据
DataStream<String> dataStream = envreadFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo) 
  • 基于Socket获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 根据socket获取数据源
DataStream<String> dataStream = env.socketTextStream(hostname, port);
  • 基于Collection获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。
DataStream<String> dataStream = env.fromCollection(Collection) 

// 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromCollection(Iterator, Class)

// 从给定的对象序列创建数据流。所有对象必须属于同一类型。
DataStream<String> dataStream = env.fromElements(T ...) 

// 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromParallelCollection(SplittableIterator, Class) 

// 并行生成给定间隔中的数字序列
DataStream<String> dataStream = env.generateSequence(from, to)
  • 基于连接器获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 基于kafka
String kafkaTopic = params.get("kafka-topic");
String brokers = params.get("brokers", "localhost:9092");
DataStream<String> streamSource = env..addSink(new FlinkKafkaProducer010(brokers, kafkaTopic, (SerializationSchema) new EventDeSerializer()));