欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

R语言:数据预处理-缺失值

程序员文章站 2024-03-25 17:29:24
...

数据预处理

导入玩家的玩牌游戏数据

加载并查看数据信息

player <- read.csv("玩家玩牌数据.csv",F)
head(player)
str(player)

R语言:数据预处理-缺失值

给数据设置变量名

player_col_names <- c("用户id","性别","等级","站内好友数","经验值",
                      "积分","登录总次数","玩牌局数","赢牌局数","身上货币量")
//查看变量名
colnames(player) <- player_col_names
//查看前六行
head(player)

R语言:数据预处理-缺失值

查看缺失值

// 利用is.na函数判断“玩牌局数”变量各值是否为缺失值
is.na(player$玩牌局数)
// 统计缺失值与非缺失值的个数
table(is.na(player$玩牌局数))
//sum()和mean()函数来统计缺失值的个数和占比
// 计算缺失值个数
sum(is.na(player$玩牌局数))
// 计算缺失值占比
mean(is.na(player$玩牌局数))

R语言:数据预处理-缺失值

用md.pattern函数查看player的缺失值模式

md.pattern(player)

R语言:数据预处理-缺失值

删除缺失值

当缺失值占比不大时,可以采用缺失值删除的方法

player_full <- na.omit(player)

替换缺失值

如果数据缺失值过大,且对数据总体有一定影响,可以采用替换的方式。

//用0替换缺失值
player[is.na(player)] <- 0
相关标签: r语言