python，pandas重复数据处理

import pandas as pd

df=pd.read_csv(r"C:\data\重复值处理\data1.csv",encoding='gbk',engine='python')
#不写engine='python'可能会出现OSError: Initializing from file failed。

python，pandas重复数据处理

1.找出重复值的位置


'''
找出重复值的位置
'''
#根据全部列名
result=df.duplicated()#两条数据完全一样时，才返回True。duplicated是根据全部列名进行判断
print(result)

python，pandas重复数据处理

'''
根据某个列名进行判断
'''

result1=df.duplicated('gender') 
print(result1)

python，pandas重复数据处理

'''
根据某些列名进行判断
'''

result2=df.duplicated(['gender','name'])
print(result2)

python，pandas重复数据处理

2.提取重复的行

print(df[result]) #df[True] 只取逻辑值为True的

python，pandas重复数据处理

print(df[result1])

python，pandas重复数据处理

3.删除重复的行

'''
完全重复时才删除
'''
df1=df.drop_duplicates()#df不变

python，pandas重复数据处理

'''
部分重复时就删除（根据某列是否重复来删除）
'''
df2=df.drop_duplicates(['name','gender'])#当name和gender数据都一样时就删除

python，pandas重复数据处理

1.找出重复值的位置

2.提取重复的行

3.删除重复的行

python pandas 对series和dataframe的重置索引reindex方法

python将pandas datarame保存为txt文件的实例

python算法（输入一个包含重复数字的序列返回不重复的全排列）

python pandas.DataFrame选取、修改数据最好用.loc,.iloc,.ix实现

python去掉字符串中重复字符的方法

Windows下Python使用Pandas模块操作Excel文件的教程

python+pandas分析nginx日志的实例

python安装numpy和pandas的方法步骤

详解Python数据分析--Pandas知识点

pandas 实现将重复表格去重,并重新转换为表格的方法