欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习中 中值的含义 博客分类: 机器学习  

程序员文章站 2024-03-22 10:37:52
...

 

中值[median] (又称中位数)是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数,用Me表示。当变量值的项数N为奇数时,处于中间位置的变量值即为中位数;当N为偶数时,中位数则为处于中间位置的2个变量值的平均数。
中值也称中位数,即数据按升序或者降序排列,假如有n个数据,当n为偶数时,中位数为第n/2位数和第(n+2)/2位数的平均数;如果n为奇数,那么中位数为第(n+1)/2位数的值。
 
描述数据集取值水平的主要有以下三个指标:平均数,中位数,众数。 通常似乎人们更青睐平均数,例如衡量职工收入水平用“职工平均工资”,衡量班级学习成绩用“学生平均成绩”,以为平均数是衡量数据集取值水平的最好指标,其实错了!平均数有一个天然的缺陷没有得到重视,平均数受极端值的影响是非常大的。例如一些年薪千万、数百万的高层加入职工平均工资的计算,会大幅度提升“职工工资”的水平,从而产生职工工资已经很高的假象。去年上海市统计公布的职工月平均工资是三千多元,可是睁开眼睛看看,左邻右舍中大量的是只有一、二千元月收入的,只不过刚刚温饱而已! 其实人们是最就意识到平均数这种缺陷的,并且努力试图克服这种缺陷,例如在靠裁判、评委打分决定成绩的竞技体育、选秀活动中,往往采用去掉极端的最高、最低分以后计算平均分的方法,这确实可以在一定程度上抑制平均数的缺陷。 在某些场合,中位数、众数会可能更真实地反映数据集的水平,例如在统计职工平均工资时,如果不仅仅统计平均数,也同时统计中位数与众数的话,我们就能够真实地了解人民的收入情况,从而不会作出脱离人民实际状况的决策。