数据分析-day02-分析案例1：将矩阵中为nan的元素替换为每一列的均值

程序员文章站 2022-06-15 19:36:49

...

背景要求：将矩阵中为nan的元素替换为每一列的均值：

def method2():
  for i in range(t.shape[1]):
      temp_col=t[:,i];
      nan_num=np.count_nonzero(temp_col!=temp_col); #为nana的个数
      print(nan_num)
      if nan_num >0 :
          not_nan_col=temp_col[temp_col==temp_col];  #不为nan
          print(not_nan_col)
          temp_col[np.isnan(temp_col)]=not_nan_col.mean();#赋值

# -*- coding: utf-8 -*-

# @File    : numpy_fixempty_value_demo.py
# @Date    :  2019-12-31 17:28
# @Author  : admin
import numpy as np

print("##############################构造一个含有nan的矩阵")
t = np.arange(0,24).reshape(4,6)
#将元素转成float类型
t=t.astype(np.float)
print(t)
print("######################赋值为nan后")
#给某个位置赋值nan
t[[1,3],[2,4]]=np.nan;#(1,2),(3,4)
print(t);
print("##############################为含有nan的行赋值为均值")
#t.shape[0] 行，t.shape[1] 列
print(t.shape,t.shape[0],t.shape[1])
#开始遍历 np.count_nonzero(e!=e)
def method2():
  for i in range(t.shape[1]):
      temp_col=t[:,i];
      nan_num=np.count_nonzero(temp_col!=temp_col); #为nana的个数
      print(nan_num)
      if nan_num >0 :
          not_nan_col=temp_col[temp_col==temp_col];  #不为nan
          print(not_nan_col)
          temp_col[np.isnan(temp_col)]=not_nan_col.mean();#赋值

def method1():
  for i in range(t.shape[1]):
    print(t[:,i])
    nan_num = np.count_nonzero(t[:, i][t[:, i] != t[:, i]]);  # 计算为nan的个数 A[true,false,false]
    print(nan_num)
    if nan_num > 0:
        new_col = t[:, i];
        #这两步是重点
        new_col_not_nan = new_col[np.isnan(new_col) == False].sum();  # 不为nan的元素求和
        '''
        1
        nan
        1
        nan
        1
        1
        t.shape[[0] - nan_num   5-2
        '''
        new_col_means = new_col_not_nan / (t.shape[0] - nan_num);  # 和/个数
        new_col[np.isnan(new_col)] = new_col_means;  # 赋值为均值
        t[:, i] = new_col;  # 更新t的当前列




print("结果如下:")
method2();
print(t)

数据分析-day02-分析案例1：将矩阵中为nan的元素替换为每一列的均值