最大似然估计(Maximum likelihood estimation)(通过例子理解)

程序员文章站 2022-07-13 11:20:32

...

似然与概率

在统计学中，似然函数（likelihood function，通常简写为likelihood，似然）是一个非常重要的内容，在非正式场合似然和概率（Probability）几乎是一对同义词，但是在统计学中似然和概率却是两个不同的概念。概率是在特定环境下某件事情发生的可能性，也就是结果没有产生之前依据环境所对应的参数来预测某件事情发生的可能性，比如抛硬币，抛之前我们不知道最后是哪一面朝上，但是根据硬币的性质我们可以推测任何一面朝上的可能性均为50%，这个概率只有在抛硬币之前才是有意义的，抛完硬币后的结果便是确定的；而似然刚好相反，是在确定的结果下去推测产生这个结果的可能环境（参数），还是抛硬币的例子，假设我们随机抛掷一枚硬币1,000次，结果500次人头朝上，500次数字朝上（实际情况一般不会这么理想，这里只是举个例子），我们很容易判断这是一枚标准的硬币，两面朝上的概率均为50%，这个过程就是我们根据结果来判断这个事情本身的性质（参数），也就是似然。

结果和参数相互对应的时候，似然和概率在数值上是相等的，如果用 θ 表示环境对应的参数，x 表示结果，那么概率可以表示为：

P(x|θ)

是条件概率的表示方法，θ是前置条件，理解为在θ 的前提下，事件 x 发生的概率，相对应的似然可以表示为：

最大似然估计(Maximum likelihood estimation)(通过例子理解)
理解为已知结果为 x ，参数为θ (似然函数里θ 是变量，这里## 标题 ##说的参数是相对与概率而言的)对应的概率，即：

最大似然估计(Maximum likelihood estimation)(通过例子理解)
需要说明的是两者在数值上相等，但是意义并不相同，是关于 θ 的函数，而 P 则是关于 x 的函数，两者从不同的角度描述一件事情。

举个例子

以伯努利分布（Bernoulli distribution，又叫做两点分布或0-1分布）为例：

最大似然估计(Maximum likelihood estimation)(通过例子理解)

也可以写成以下形式：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

这里注意区分 f(x;p)与前面的条件概率的区别，引号后的 p 仅表示 ff依赖于 p的值，p 并不是 f的前置条件，而只是这个概率分布的一个参数而已，也可以省略引号后的内容：

最大似然估计(Maximum likelihood estimation)(通过例子理解)

对于任意的参数 p 我们都可以画出伯努利分布的概率图，当 p=0.5时：

                    f(x)=0.5

我们可以得到下面的概率密度图：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

从似然的角度出发，假设我们观测到的结果是 x=0.5（即某一面朝上的概率是50%，这个结果可能是通过几千次几万次的试验得到的，总之我们现在知道这个结论），可以得到以下的似然函数：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

对应的图是这样的：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

与概率分布图不同的是，似然函数是一个(0, 1)内连续的函数，所以得到的图也是连续的，我们很容易看出似然函数的极值（也是最大值）在 p=0.5处得到，通常不需要做图来观察极值，令似然函数的偏导数为零即可求得极值条件。

ps. 似然函数里的 p 描述的是硬币的性质而非事件发生的概率（比如 p=0.5 描述的是一枚两面均匀的硬币）。为了避免混淆，可以用其他字母来表示这个性质，如果我们用 π 来表示，那么似然函数就可以写成：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

似然函数的最大值

似然函数的最大值意味着什么？让我们回到概率和似然的定义，概率描述的是在一定条件下某个事件发生的可能性，概率越大说明这件事情越可能会发生；而似然描述的是结果已知的情况下，该事件在不同条件下发生的可能性，似然函数的值越大说明该事件在对应的条件下发生的可能性越大。

现在再来看看之前提到的抛硬币的例子：

最大似然估计(Maximum likelihood estimation)(通过例子理解)

上面的 p（硬币的性质）就是我们说的事件发生的条件，L 描述的是性质不同的硬币，任意一面向上概率为50% 的可能性有多大，是不是有点绕？让我们来定义 A：

A=事件的结果=任意一面向上概率为50%

那么 L描述的是性质不同的硬币，A 事件的可能性有多大，这么一说是不是清楚多了？

在很多实际问题中，比如机器学习领域，我们更关注的是似然函数的最大值，我们需要根据已知事件来找出产生这种结果最有可能的条件，目的当然是根据这个最有可能的条件去推测未知事件的概率。在这个抛硬币的事件中，p 可以取 [0, 1] 内的所有值，这是由硬币的性质所决定的，显而易见的是 p=0.5这种硬币最有可能产生我们观测到的结果。

对数化的似然函数

实际问题往往要比抛一次硬币复杂得多，会涉及到多个独立事件，在似然函数的表达式中通常都会出现连乘：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

对多项乘积的求导往往非常复杂，但是对于多项求和的求导却要简单的多，对数函数不改变原函数的单调性和极值位置，而且根据对数函数的性质可以将乘积转换为加减式，这可以大大简化求导的过程：
最大似然估计(Maximum likelihood estimation)(通过例子理解)

在机器学习的公式推导中，经常能看到类似的转化。

看到这应该不会再那么迷糊了吧~最后再来个例子：

举个别人博客中的例子，假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是p，那么黑球的比例就是1-p。因为每抽一个球出来，在记录颜色之后，我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜 色服从同一独立分布。这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，七十次是白球的概率是P(Data | M)，这里Data是所有的数据，M是所给出的模型，表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1，第二抽样的结果记为x2... 那么Data = (x1,x2,…,x100)。这样，

　P(Data | M)

　　　　　= P(x1,x2,…,x100|M)

　　　　　= P(x1|M)P(x2|M)…P(x100|M)

　　　　　= p^70(1-p)^30.

那么p在取什么值的时候，P(Data |M)的值最大呢？将p^70(1-p)^30对p求导，并其等于零。

　　　　70p^69(1-p)^30-p^70*30(1-p)^29=0。

　　　　解方程可以得到p=0.7。

在边界点p=0,1，P(Data|M)=0。所以当p=0.7时，P(Data|M)的值最大。这和我们常识中按抽样中的比例来计算的结果是一样的。

假如我们有一组连续变量的采样值（x1,x2,…,xn），我们知道这组数据服从正态分布，标准差已知。请问这个正态分布的期望值为多少时，产生这个已有数据的概率最大？

　　　　P(Data | M) = ？

根据公式
最大似然估计(Maximum likelihood estimation)(通过例子理解)