统计学习方法笔记1--统计学习方法概论
1 统计学习方法概论
1.1 统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如英文文章、互联网网页、数据库中的数据等。
统计学习总的目的就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型的假设空间,即学习模型的集合;
(3)确定模型选择的准则,即学习的策略;
(4)实现求解最优模型的算法,即学习的算法;
(5)通过学习方法选择最优模型;
(6)利用学习的最优模型对新数据进行预测或分析。
学习:如果一个系统能够通过执行某个过程改进它的性能
计算机科学由三维组成:系统、计算、信息。
1.2 监督学习
1.2.1 基本概念
在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。
监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习范围的确定。
1.3 统计学习三要素
方法=模型+策略+算法
1.3.1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
1.3.2 策略
监督学习问题就变成了经验风险或结构风险函数的最优化问题。
1.3.3 算法
统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。
1.4 模型评估与模型选择
将学习方法对未知数据的预测能力称为泛化能力。
过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。
1.5 正则化与交叉验证
正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化符合奥卡姆剃刀原理。奥卡姆剃刀原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。从贝叶斯估计的角度来看,正则化对应于模型的先验概率。可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
1.6 泛化能力
学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。
1.7 生成模型与判别模型
监督学习方法又可以分为生成方法和判别方法。
1.7.1 生成方法
生成方法由数据学习联合概率分布P(X, Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
P(Y|X)= P(X, Y) / P(X)
模型表示了给定输入X产生输出Y的生成关系。
生成方法的特点:生成方法可以还原出联合概率分布P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。
1.7.2 判别方法
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。判别方法关心的是对给定的输入X,应该预测什么样的输出Y。
判别方法的特点:判别方法直接学习的是条件概率P(Y|X)或决策函数,直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。
1.8 分类问题
在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。这时,输入变量X可以是离散的,也可以是连续的。
1.9 标注问题
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
1.10 回归问题
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。