Flink DataStream API - Data Sources获取数据源

程序员文章站 2022-07-14 13:39:14

...

基于文件获取数据源
在底层，Flink将文件读取过程分成两个子任务，即目录监视和数据读取。每个子任务都由一个单独的实体实现。监视由单个非并行(parallelism = 1)任务实现，而读取由多个并行运行的任务执行。后者的并行性等于作业并行性。单个监视任务的作用是扫描目录(定期或仅扫描一次，这取决于watchType)，找到要处理的文件，将它们分成几部分，并将这些部分分配给下游的读取器。读取器将读取实际数据。每个拆分只能由一个读取器读取，而一个读取器可以逐个读取多个拆分。

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 逐行读取文本文件，即符合规范的文件，并将它们作为字符串返回。
DataStream<String> dataStream = env.readTextFile(filePath)

// 按指定的文件输入格式指定读取（一次）文件。
DataStream<String> dataStream = env.readFile(fileInputFormat, path)

// 这是前两个方法在内部调用的方法,它根据给定的fileInputFormat读取路径中的文件,根据所提供的watchType
// 此源可以定期监视(每隔一段时间ms)给定路径文件中的新数据
DataStream<String> dataStream = envreadFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo)

基于Socket获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 根据socket获取数据源
DataStream<String> dataStream = env.socketTextStream(hostname, port);

基于Collection获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。
DataStream<String> dataStream = env.fromCollection(Collection) 

// 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromCollection(Iterator, Class)

// 从给定的对象序列创建数据流。所有对象必须属于同一类型。
DataStream<String> dataStream = env.fromElements(T ...) 

// 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromParallelCollection(SplittableIterator, Class) 

// 并行生成给定间隔中的数字序列
DataStream<String> dataStream = env.generateSequence(from, to)

基于连接器获取数据源

// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

// 基于kafka
String kafkaTopic = params.get("kafka-topic");
String brokers = params.get("brokers", "localhost:9092");
DataStream<String> streamSource = env..addSink(new FlinkKafkaProducer010(brokers, kafkaTopic, (SerializationSchema) new EventDeSerializer()));

上一篇： DataStream API编程指南之Data Sources（七）

下一篇： flink on yarn模式

Flink DataStream API - Data Sources获取数据源

1.11.Flink DataSetAPI、DataSet API之Data Sources、DataSet API之Transformations、DataSet Sink部分详解

DataStream API编程指南之Data Sources（七）

Flink DataStream API - Data Sources获取数据源

Flink DataStream API之Data Sources