学习机器学习笔记【第一周】
1-2:什么是机器学习
1.Arthur Samuel 对 机器学习的定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域。
2.Tom Mitchell对 机器学习的定义:一个好的学习问题定义如下,他说,一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。
1-3:监督学习
1.监督学习指的就是我们给学习算法一个数据集。这个数据集由“正确答案”组成。
2.1判断新房子的价格:回归问题。回归这个词的意思是,在试着推测出这一系列连续值属性。
2.2 能否估算出肿瘤是恶性的或是良性的概率:分类问题。分类指的是,试着推测出离散的输出值:0或1良性或恶性或者更多输出值。
- 特征增多,计算机可能无法处理。一个算法,叫支持向量机,里面有一个巧妙的数学技巧,能让计算机处理无限多个特征。
1-4:无监督学习
-
无监督学习:没有给算法正确答案来回应数据集中的数据,无监督算法自行判断处理。例:1.1聚类应用:谷歌新闻分类。1.2细分市场。
-
鸡尾酒宴:[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’);
将两段同时的音频分离。
2-1:模型表示
m代表训练集中实例的数量
x代表特征/输入变量
y代表目标变量/输出变量
(x,y)代表训练集中的实例
(x(i),y(i))代表第i 个观察实例
h代表学习算法的解决方案或函数也称为假设(hypothesis)
2-2:代价函数
- 参数(parameters): , 。
- 建模误差:模型所预测的值与训练集中实际值之间的差距。
- 代价函数:
2-3:代价函数的直观理解
2-5:梯度下降
1.梯度下降背后的思想是:开始时我们随机选择一个参数的组合
计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
2.批量梯度下降(batch gradient descent)算法的公式为:
3.是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
4.需要同时更新 1和 0。
2-6:梯度下降的直观理解
- 梯度下降算法:
- 对赋值,使得按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中a是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。
- 1 已经在一个局部的最优处或局部最低点,结果是局部最优点的导数将等于零,因为它是那条切线的斜率。这意味着你已经在局部最优点,它使得 1不再改变,也就是新的1 等于原来的 1,因此,如果你的参数已经处于局部最低点,那么梯度下降法更新其实什么都没做,它不会改变参数的值。这也解释了为什么即使学习速率a保持不变时,梯度下降也可以收敛到局部最低点。
2-7:梯度下降的线性回归
1.梯度下降算法和线性回归算法比较:
2.对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:
4-1:多维特征
n代表特征的数量。
x_i代表特征的数量代表第 i个训练实例,是特征矩阵中的第i行,是一个向量(vector)。
支持多变量的假设 h表示为:
这个公式中有个n+1参数和n个变量,为了使得公式能够简化一些,引入x_0=1,则公式转化为:
此时模型中的参数是一个n+1维的向量,任何一个训练实例也都是n+1维的向量,特征矩阵X的维度是m*(n+1)。 因此公式可以简化为:
其中上标代表T矩阵转置。
上一篇: 矿难最受伤的不是显卡!而是国产千瓦电源