R语言:数据预处理-缺失值
程序员文章站
2024-03-25 17:29:24
...
数据预处理
导入玩家的玩牌游戏数据
加载并查看数据信息
player <- read.csv("玩家玩牌数据.csv",F)
head(player)
str(player)
给数据设置变量名
player_col_names <- c("用户id","性别","等级","站内好友数","经验值",
"积分","登录总次数","玩牌局数","赢牌局数","身上货币量")
//查看变量名
colnames(player) <- player_col_names
//查看前六行
head(player)
查看缺失值
// 利用is.na函数判断“玩牌局数”变量各值是否为缺失值
is.na(player$玩牌局数)
// 统计缺失值与非缺失值的个数
table(is.na(player$玩牌局数))
//sum()和mean()函数来统计缺失值的个数和占比
// 计算缺失值个数
sum(is.na(player$玩牌局数))
// 计算缺失值占比
mean(is.na(player$玩牌局数))
用md.pattern函数查看player的缺失值模式
md.pattern(player)
删除缺失值
当缺失值占比不大时,可以采用缺失值删除的方法
player_full <- na.omit(player)
替换缺失值
如果数据缺失值过大,且对数据总体有一定影响,可以采用替换的方式。
//用0替换缺失值
player[is.na(player)] <- 0
上一篇: windows 日常操作