机器学习中 中值的含义 博客分类: 机器学习
程序员文章站
2024-03-22 10:46:16
...
中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。
描述数据集取值水平的主要有以下三个指标:平均数,中位数,众数。 通常似乎人们更青睐平均数,例如衡量职工收入水平用“职工平均工资”,衡量班级学习成绩用“学生平均成绩”,以为平均数是衡量数据集取值水平的最好指标,其实错了!平均数有一个天然的缺陷没有得到重视,平均数受极端值的影响是非常大的。例如一些年薪千万、数百万的高层加入职工平均工资的计算,会大幅度提升“职工工资”的水平,从而产生职工工资已经很高的假象。去年上海市统计公布的职工月平均工资是三千多元,可是睁开眼睛看看,左邻右舍中大量的是只有一、二千元月收入的,只不过刚刚温饱而已! 其实人们是最就意识到平均数这种缺陷的,并且努力试图克服这种缺陷,例如在靠裁判、评委打分决定成绩的竞技体育、选秀活动中,往往采用去掉极端的最高、最低分以后计算平均分的方法,这确实可以在一定程度上抑制平均数的缺陷。 在某些场合,中位数、众数会可能更真实地反映数据集的水平,例如在统计职工平均工资时,如果不仅仅统计平均数,也同时统计中位数与众数的话,我们就能够真实地了解人民的收入情况,从而不会作出脱离人民实际状况的决策。