Flink DataStream API - Data Sources获取数据源
程序员文章站
2022-07-14 13:39:14
...
- 基于文件获取数据源
在底层,Flink将文件读取过程分成两个子任务,即目录监视和数据读取。每个子任务都由一个单独的实体实现。监视由单个非并行(parallelism = 1)任务实现,而读取由多个并行运行的任务执行。后者的并行性等于作业并行性。单个监视任务的作用是扫描目录(定期或仅扫描一次,这取决于watchType),找到要处理的文件,将它们分成几部分,并将这些部分分配给下游的读取器。读取器将读取实际数据。每个拆分只能由一个读取器读取,而一个读取器可以逐个读取多个拆分。
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 逐行读取文本文件,即符合规范的文件,并将它们作为字符串返回。
DataStream<String> dataStream = env.readTextFile(filePath)
// 按指定的文件输入格式指定读取(一次)文件。
DataStream<String> dataStream = env.readFile(fileInputFormat, path)
// 这是前两个方法在内部调用的方法,它根据给定的fileInputFormat读取路径中的文件,根据所提供的watchType
// 此源可以定期监视(每隔一段时间ms)给定路径文件中的新数据
DataStream<String> dataStream = envreadFile(fileInputFormat, path, watchType, interval, pathFilter, typeInfo)
- 基于Socket获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 根据socket获取数据源
DataStream<String> dataStream = env.socketTextStream(hostname, port);
- 基于Collection获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 从Java Java.util.Collection创建数据流。集合中的所有元素必须属于同一类型。
DataStream<String> dataStream = env.fromCollection(Collection)
// 从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromCollection(Iterator, Class)
// 从给定的对象序列创建数据流。所有对象必须属于同一类型。
DataStream<String> dataStream = env.fromElements(T ...)
// 并行地从迭代器创建数据流。该类指定迭代器返回的元素的数据类型。
DataStream<String> dataStream = env.fromParallelCollection(SplittableIterator, Class)
// 并行生成给定间隔中的数字序列
DataStream<String> dataStream = env.generateSequence(from, to)
- 基于连接器获取数据源
// 获取运行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
// 基于kafka
String kafkaTopic = params.get("kafka-topic");
String brokers = params.get("brokers", "localhost:9092");
DataStream<String> streamSource = env..addSink(new FlinkKafkaProducer010(brokers, kafkaTopic, (SerializationSchema) new EventDeSerializer()));