数据分析-数据处理-pandas处理特征值重复的数据

程序员文章站 2022-04-15 14:10:46

...

import pandas as pd
df = pd.read_csv('H:/JupyterWork/数据分析/数据分析概述/datafile/data4.csv', sep=',', encoding='gbk')

df = df.fillna(method='ffill')
df.loc[0,'k3'] = 11
k5 = df.insert(4,'k5',df['k4'])

# 求销量‘k3’和售价‘k4’之间的相似度
corr_info = df[['k3', 'k4']].corr(method='pearson')


# 定义求取特征值是否完全相同的矩阵的函数
def FeatureEqual(df):
    dfEquals = pd.DataFrame([], columns=df.columns, index=df.columns)
    for i in df.columns:
        for j in df.columns:
            dfEquals.loc[i,j] = df.loc[:,i].equals(df.loc[:,j])
    return dfEquals

detEquals = FeatureEqual(df)

# 遍历所有数据
len_num = detEquals.shape[0] # 返回所有的列数


dupCol = []  # 重复的列
for k in range(len_num):
    for l in range(k+1, len_num):
        if detEquals.iloc[k,l] & (detEquals.columns[1] not in dupCol):
            dupCol.append(detEquals.columns[1])

# 去重
df.drop(dupCol, axis=1, inplace=True)

数据分析-数据处理-pandas处理特征值重复的数据

使用pandas对矢量化数据进行替换处理的方法

深入剖析webstorage[html5的本地数据处理]

对pandas处理json数据的方法详解

pandas数据集的端到端处理

必须会的SQL语句(五) NULL数据处理和类型转换

大数据处理工具有哪些（最受欢迎的4个工具）

Pandas数据处理(几个简单函数使用掌握)

Django项目中model的数据处理以及页面交互方法

基于preg_match_all采集后数据处理的一点心得笔记(编码转换和正则匹配)

整理总结 python 中时间日期类数据处理与类型转换(含 pandas)