import pandas as pd

df=pd.read_csv(r"C:\data\重复值处理\data1.csv",encoding='gbk',engine='python')
#不写engine='python'可能会出现OSError: Initializing from file failed。

python,pandas重复数据处理

1.找出重复值的位置


'''
找出重复值的位置
'''
#根据全部列名
result=df.duplicated()#两条数据完全一样时,才返回True。duplicated是根据全部列名进行判断
print(result)

python,pandas重复数据处理

'''
根据某个列名进行判断
'''

result1=df.duplicated('gender') 
print(result1)

python,pandas重复数据处理

'''
根据某些列名进行判断
'''

result2=df.duplicated(['gender','name'])
print(result2)

python,pandas重复数据处理

2.提取重复的行

print(df[result]) #df[True] 只取逻辑值为True的

python,pandas重复数据处理

print(df[result1])

python,pandas重复数据处理

3.删除重复的行

'''
完全重复时才删除
'''
df1=df.drop_duplicates()#df不变

python,pandas重复数据处理

'''
部分重复时就删除(根据某列是否重复来删除)
'''
df2=df.drop_duplicates(['name','gender'])#当name和gender数据都一样时就删除

python,pandas重复数据处理

相关标签: python pandas

上一篇: 【算法百题之二十二】20网易面试题-水平线研发

下一篇: MR案例 之 重复数据处理

推荐阅读