python ETL工具 pyetl

程序员文章站 2023-11-13 12:42:22

pyetl是一个纯python开发的etl框架，相比sqoop, datax 之类的etl工具，pyetl可以对每个字段添加udf函数，使得数据转换过程更加灵活，相比专业etl工具pyetl更轻量，...

pyetl是一个纯python开发的etl框架，相比sqoop, datax 之类的etl工具，pyetl可以对每个字段添加udf函数，使得数据转换过程更加灵活，相比专业etl工具pyetl更轻量，纯python代码操作，更加符合开发人员习惯

安装

pip3 install pyetl

使用示例

数据库表之间数据同步

from pyetl import task, databasereader, databasewriter
reader = databasereader("sqlite:///db1.sqlite3", table_name="source")
writer = databasewriter("sqlite:///db2.sqlite3", table_name="target")
task(reader, writer).start()

数据库表到hive表同步

from pyetl import task, databasereader, hivewriter2
reader = databasereader("sqlite:///db1.sqlite3", table_name="source")
writer = hivewriter2("hive://localhost:10000/default", table_name="target")
task(reader, writer).start()

数据库表同步es

from pyetl import task, databasereader, elasticsearchwriter
reader = databasereader("sqlite:///db1.sqlite3", table_name="source")
writer = elasticsearchwriter(hosts=["localhost"], index_name="tartget")
task(reader, writer).start()

原始表目标表字段名称不同，需要添加字段映射

添加

# 原始表source包含uuid，full_name字段
reader = databasereader("sqlite:///db.sqlite3", table_name="source")
# 目标表target包含id，name字段
writer = databasewriter("sqlite:///db.sqlite3", table_name="target")
# columns配置目标表和原始表的字段映射关系
columns = {"id": "uuid", "name": "full_name"}
task(reader, writer, columns=columns).start()

字段的udf映射，对字段进行规则校验、数据标准化、数据清洗等

# functions配置字段的udf映射，如下id转字符串，name去除前后空格
functions={"id": str, "name": lambda x: x.strip()}
task(reader, writer, columns=columns, functions=functions).start()

继承task类灵活扩展etl任务

import json
from pyetl import task, databasereader, databasewriter

class newtask(task):
  reader = databasereader("sqlite:///db.sqlite3", table_name="source")
  writer = databasewriter("sqlite:///db.sqlite3", table_name="target")
  
  def get_columns(self):
    """通过函数的方式生成字段映射配置，使用更灵活"""
    # 以下示例将数据库中的字段映射配置取出后转字典类型返回
    sql = "select columns from task where name='new_task'"
    columns = self.writer.db.read_one(sql)["columns"]
    return json.loads(columns)
   
  def get_functions(self):
    """通过函数的方式生成字段的udf映射"""
    # 以下示例将每个字段类型都转换为字符串
    return {col: str for col in self.columns}
   
  def apply_function(self, record):
    """数据流中对一整条数据的udf"""
    record["flag"] = int(record["id"]) % 2
    return record

  def before(self):
    """任务开始前要执行的操作, 如初始化任务表，创建目标表等"""
    sql = "create table destination_table(id int, name varchar(100))"
    self.writer.db.execute(sql)
  
  def after(self):
    """任务完成后要执行的操作，如更新任务状态等"""
    sql = "update task set status='done' where name='new_task'"
    self.writer.db.execute(sql)

newtask().start()

目前已实现reader和writer列表

reader	介绍
databasereader	支持所有关系型数据库的读取
filereader	结构化文本数据读取，如csv文件
excelreader	excel表文件读取

writer	介绍
databasewriter	支持所有关系型数据库的写入
elasticsearchwriter	批量写入数据到es索引
hivewriter	批量插入hive表
hivewriter2	load data方式导入hive表（推荐)
filewriter	写入数据到文本文件

项目地址pyetl

总结

到此这篇关于python etl工具 pyetl的文章就介绍到这了,更多相关python etl工具 pyetl内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持！

上一篇： python3.6.5基于kerberos认证的hive和hdfs连接调用方式

下一篇： Android FTP服务器上传文件攻略(代码详解)

python ETL工具 pyetl

python ETL工具 pyetl

5款Python程序员高频使用开发工具推荐

win8安装python环境和pip、easy_install工具

Python中的十大图像处理工具(小结)

python图形工具turtle绘制国际象棋棋盘

Python自动化测试工具Splinter简介和使用实例

荐可视化工具不知道怎么选？深度评测5大Python数据可视化工具

python使用Plotly绘图工具绘制散点图、线形图

Python下的常用下载安装工具pip的安装方法

Python语言编写电脑时间自动同步小工具

python ETL工具 pyetl

python ETL工具 pyetl

5款Python程序员高频使用开发工具推荐

win8安装python环境和pip、easy_install工具

Python中的十大图像处理工具(小结)

python图形工具turtle绘制国际象棋棋盘

Python自动化测试工具Splinter简介和使用实例

荐 可视化工具不知道怎么选？深度评测5大Python数据可视化工具

python使用Plotly绘图工具绘制散点图、线形图

Python下的常用下载安装工具pip的安装方法

Python语言编写电脑时间自动同步小工具

荐可视化工具不知道怎么选？深度评测5大Python数据可视化工具