pandas交集、差集、并集 博客分类: python
程序员文章站
2024-03-15 10:22:23
...
python3使用pandas进行数据的整合。有时候需要取交集、差集、并集。
# coding:utf-8 import nothing as my_project import pandas as pd def get_data(): file_1 = my_project.project_root + '/resources/' + '1_uniq.txt' file_2 = my_project.project_root + '/resources/' + '2_uniq.txt' # 加一个额外列 order_id_me = pd.read_table(file_1, names=['order_id']) order_id_me['v1'] = order_id_me.apply(lambda x: 1, axis=1) order_id_you = pd.read_table(file_2, names=['order_id']) order_id_you['v2'] = order_id_you.apply(lambda x: 2, axis=1) # 并集 union_set = pd.merge(order_id_you, order_id_me, how='outer') # 差集 difference_set = union_set[(union_set['v1'].isnull()) | (union_set['v2'].isnull())] # 交集 intersection_set = union_set[(union_set['v1'].notnull()) & (union_set['v2'].notnull())]
以上代码只针对某些特定的情况,主旨是灵活运用merge函数里的how参数。
上一篇: pandas绘图中文乱码解决方案 博客分类: python机器学习 python
下一篇: ZooKeeper Watch机制 博客分类: zookeeper分布式协调服务 ZooKeeperWatchJVM异步非阻塞
推荐阅读
-
pandas交集、差集、并集 博客分类: python
-
pandas交集、差集、并集 博客分类: python
-
LINQ操作数组代码(交集,并集,差集,最值,平均,去重复)
-
LINQ操作数组代码(交集,并集,差集,最值,平均,去重复)
-
python 常用功能锦集 博客分类: python linuxpython常用功能permission
-
poj 2985 并查集+树状数组求第k大数 博客分类: acm acm树状数组算法
-
python 常用功能锦集 博客分类: python linuxpython常用功能permission
-
Java计算交集,差集,并集的方法示例
-
串联JVM的指令集文档 博客分类: Python pythonbeautifulsoupjvm
-
Python求两个文本文件以行为单位的交集、并集与差集的方法