python,pandas重复数据处理
程序员文章站
2022-04-13 23:18:13
...
data1.csv的内容如下:
import pandas as pd
df=pd.read_csv(r"C:\data\重复值处理\data1.csv",encoding='gbk',engine='python')
#不写engine='python'可能会出现OSError: Initializing from file failed。
1.找出重复值的位置
'''
找出重复值的位置
'''
#根据全部列名
result=df.duplicated()#两条数据完全一样时,才返回True。duplicated是根据全部列名进行判断
print(result)
'''
根据某个列名进行判断
'''
result1=df.duplicated('gender')
print(result1)
'''
根据某些列名进行判断
'''
result2=df.duplicated(['gender','name'])
print(result2)
2.提取重复的行
print(df[result]) #df[True] 只取逻辑值为True的
print(df[result1])
3.删除重复的行
'''
完全重复时才删除
'''
df1=df.drop_duplicates()#df不变
'''
部分重复时就删除(根据某列是否重复来删除)
'''
df2=df.drop_duplicates(['name','gender'])#当name和gender数据都一样时就删除
下一篇: MR案例 之 重复数据处理
推荐阅读
-
python pandas 对series和dataframe的重置索引reindex方法
-
python将pandas datarame保存为txt文件的实例
-
python算法(输入一个包含重复数字的序列返回不重复的全排列)
-
python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现
-
python去掉字符串中重复字符的方法
-
Windows下Python使用Pandas模块操作Excel文件的教程
-
python+pandas分析nginx日志的实例
-
python安装numpy和pandas的方法步骤
-
详解Python数据分析--Pandas知识点
-
pandas 实现将重复表格去重,并重新转换为表格的方法