机器学习04:决策树与随机森林

纯度衡量标准	用途	公式	说明
信息熵 (Entropy)	分类	$\sum_{i=1}^n \, f_i(1-f_i)$	$f_i$ 表示标签 $i$ 出现的频率 $n$ 表示标签数量
基尼系数 (Gini inpurity)	分类	$\sum_{i=1}^n \, -f_i\log(1-f_i)$	$f_i$ 表示标签 $i$ 出现的频率 $n$ 表示标签数量
均方误差 (Variance)	回归	$\frac{1}{n} \sum_{i=1}^n \, (x_i-\mu)$	$y_i$ 表示样本 $i$ 实际值, $\mu$ 表示样本均值 $n$ 表示样本数量

决策树的优缺点

决策树的优点

我们前面提到过,逻辑回归也能解决分类问题,但逻辑回归只能进行线性分类,对于线性不可分的样本,逻辑回归并不适用.

例如下面这个样本,我们不能找到一条拟合直线,将两种类别的样本完美分开.
机器学习04:决策树与随机森林

但是使用决策树,我们可以通过先后分别考察 $x_1$ 和 $x_2$ 将两种类别的样本完美分开.
机器学习04:决策树与随机森林

决策树的缺点

运算量大: 需要一次加载所有数据进内存,并且找寻分割条件是一个极耗资源的操作.
抗干扰能力差: 训练样本出现异常数据时,将对决策树的构造产生很大影响.

为了克服这两个缺点,我们引入了随机森林的概念.

随机森林

我们随机选取数据集的一部分,生成一个决策树.重复上述过程,生成多棵决策树,即可得到随机森林.
机器学习04:决策树与随机森林

在进行预测时,随机森林采用少数服从多数的投票法得到最终结果.
机器学习04:决策树与随机森林

随机森林克服了单棵决策树运算量大和抗干扰能力差的缺点.在实际使用中,我们都会使用随机森林而非决策树.

随机森林VS.逻辑回归

随机森林和逻辑回归是我们至今为止接触到的两个分类器,下面表格对其做出比较:

逻辑回归	随机森林
软分类	硬分类
线性模型	非线性模型
输出有概率意义	输出无概率意义
抗干扰能力强	抗干扰能力弱

使用代码实现决策树与随机森林

使用sklearn.tree模块的DecisionTreeClassifier和sklearn.ensemble模块的RandomForestClassifier分别可以训练决策树与随机森林分类器,代码如下:

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
data = pd.DataFrame(iris.data)

# 提取鸢尾花数据
X = iris.data  		# 花萼长度,宽度
y = iris.target		# 花的种类
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.75)

# 创建一个最大深度为8,以交叉熵作为纯度标准的分类器
tree_clf = DecisionTreeClassifier(max_depth=8, criterion='entropy')
tree_clf.fit(X_train, y_train)
tree_clf.predict(X_test)

# 创建一个包含15棵决策树的随机森林
rnd_clf = RandomForestClassifier(n_estimators=15, max_leaf_nodes=16)
rnd_clf.fit(X_train, y_train)
rnd_clf.predict(X_test)

使用决策树和随机森林也可以进行回归,不过这种回归的本质仍是分类,得到的估计值是同一类样本的输出的均值其曲线是由一段段水平线连接而成的.

机器学习04:决策树与随机森林

使用sklearn.tree模块的DecisionTreeRegressor和sklearn.ensemble模块的RandomForestRegressor分别可以训练决策树与随机森林回归器.

import matplotlib.pyplot as plt
import numpy as np
from sklearn.tree import DecisionTreeRegressor

# 创建数据
N = 100
x = np.random.rand(N, 1) * 6 - 3
y = np.sin(x) + np.random.rand(N, 1) * 0.05
plt.plot(x, y, "ko", label="actual")

# 创建不同深度的决策树进行回归
depth = [2, 4, 6, 8, 10]
color = 'rgbmy'
tree_reg = DecisionTreeRegressor()
x_test = np.linspace(-3, 3, 50).reshape(-1, 1)
for d, c in zip(depth, color):
    tree_reg.set_params(max_depth=d)
    tree_reg.fit(x, y)
    y_hat = tree_reg.predict(x_test)
    plt.plot(x_test, y_hat, '-', color=c, linewidth=2, label="depth=%d" % d)
plt.legend(loc="upper left")
plt.grid(b=True)
plt.show()

机器学习04:决策树与随机森林

机器学习04:决策树与随机森林