决策树(Decision Tree)

程序员文章站 2022-05-02 16:35:20

...

决策树(Decision Tree)

基本概念

决策树是以树状图为基础的、基于特征的、有监督的、贪心的、学习算法。决策树可以是二叉树也可以是非二叉树，其输出结果是一些进行判别的规则。
决策树由节点和有向边组成，内部的节点表示一个特征（属性），叶子节点表示一个分类。决策树可以用于分类问题也可以用于回归问题。对于分类问题，利用决策树进行预测时，将样本实例输入决策树，经过决策树内部的判别规则，最终会将样本实例分配到某一个叶节点的类中，该叶节点的类就是样本实例所属的类别。
例如，刘某需要贷款买房，银行需要评估其贷款风险，评估项有：Credit、Term、Income三项。根据用户的数据（样本）构造出决策树，再将刘某的信息作为决策树的输入，经过判定得出风险值。解决该问题的整体框架为：

图1

如果ML model采用决策树算法，则可构造出类似图2的决策树：

图2

决策树构造好之后对于具体实例预测方法为将实例作为输入使之贯穿整个决策树得出最终的判定结果，例如，对于刘某，假设其Credit=poor，Income=high，Term=5 years，则风险预测方法为：

图3

图4

构造决策树的算法

决策树的生成是一个递归过程，在决策树基本算法中，有三种情形会导致递归返回：
1. 当前结点包含的样本全属于同一类别，无需划分；
2. 当前属性集为空，或是所有样本在所有属性上取值相同，无法划分；
3. 当前结点包含的样本集合为空，不能划分。

ID3

根据信息论的知识，系统的信息增益越大那么纯度就越高。ID3算法的核心就是根据信息增益作为选择特征（属性）的标准。每次都选择可以使系统信息增益最大的特征（属性）。
给定训练集D=(x1→,y1),(x2→,y2),…,(xN→,yN)，其中xi→=(xi1,xi2,…,xin)，n为特征个数，yi∈1,2,…,K为类别标记，i=1,2,…,N，N为样本数量。假设每个类别有Ck个样本。对于数据集D，可以用熵Entropy(D)来描述数据集的不确定程度，熵越大表示越混乱，熵越小表示越有序，因此信息增益表示混乱的减少程度。当数据集中的所有样本都属于同一类别时，Entropy(D)=0，当数据集中的各个类别的样本分别均匀时Entropy(D)最大。给定特征F，信息增益定义为：

G a i n (D, F) = E n t r o p y (D) - E n t r o p y (D, F) (1)

其中，Gain(D,F)表示信息增益，Entropy(D)表示利用特征F对数据集进行划分之前系统的熵，Entropy(D,F)表示利用特征F对数据集进行划分的条件熵。

E n t r o p y (D) = - \sum i = 1 K C k N l o g C k N (2)

E n t r o p y (D, F) = \sum i = 1 n N i N \sum k = 1 K - (N i k N i log N i k N i) (3)

举例说明公式含义：
根据图2的数据，一共9个样本，包括5个safe，4个risky，则：

E n t r o p y (D) = - 59 * log 2 59 - 49 * log 2 49 = 0.991076059838222

如果根据特征Income来划分：

图5

划分后，数据D被分为两部分，high分支、low分支的熵分别为：

E n t r o p y (D, h i g h) E n t r o p y (D, l o w) = = = = - 35 * log 2 35 - 25 * log 2 25 0.970950594454669 - 24 * log 2 24 - 24 * log 2 24 1

那么根据Income划分之后的条件熵为：

E n t r o p y (D, I n c o m e) = 59 * 0.970950594454669 + 49 * 1 = 0.983861441363705

那么根据特征Income划分的信息增益为

G a i n (I n c o m e) = E n t r o p y (D) - E n t r o p y (D, I n c o m e) = 0.991076059838222 - 0.983861441363705 = 0.007214618474517

根据Term进行划分：

图6

比较图5和图6可知根据Term进行划分和根据Income进行划分的信息增益是相同的，因此：

G a i n (T e r m) = 0.007214618474517

根据Credit进行划分：

图7

E n t r o p y (D, e x c e l l e n t) E n t r o p y (D, p o o r) E n t r o p y (D, f a i r) E n t r o p y (D, C r e d i t) G a i n (C r e d i t) = = = = = = = = = = = - 12 * log 2 12 - 12 * log 2 12 1 - 13 * log 2 13 - 23 * log 2 23 0.918295834054489 - 34 * log 2 34 - 14 * log 2 14 0.811278124459133 2 / 9 * 1 + 3 / 9 * 0.918295834054489 + 4 / 9 * 0.811278124459133 0.888888888888889 E n t r o p y (D) - E n t r o p y (D, C r e d i t) 0.991076059838222 - 0.888888888888889 0.102187170949333

比较Gain(Income)、Gain(Term)、Gain(Credit)可知按照Credit进行划分的信息增益最大，即Credit在第一步使信息熵下降得最快，所以决策树的根节点就取Credit。
接下来，需要根据特征Term和Credit来对N1、N2、N3进行划分，方法如上。对N1、N2、N3分别进行一次划分就没有特可用了，算法终止。（对于本例为展示方便只选择了三个特征的例子，对于其它实际问题往往有更多的特征，就需要不断的往下划分。）

ID3缺点：
1. 以信息增益对训练集的特征进行划分，会产生偏向于选择取值较多的特征的问题。
2. ID3只有树的生成算法，没有剪枝，生成的树容易产生过拟合，即对训练集匹配的很好但是对于测试集效果较差。
例如，对于图8，当选择Day作为特征进行划分的时候可以使信息增益最大，（此时条件熵为0，信息增益Gain(D,F)=Entropy(D)−0=Gain(D,F)。也就是说在极限情况下特征Day将样本一一对应到一个叶节点中去，这显然不是最佳的选择。

图8

C4.5

C4.5使用信息增益率作为选择特征的标准。给定特征F，信息增益率定义为：

G a i n R a t i o (D, F) = G a i n (D, F) S p l i t I n f o r m a t i o n (D, F) (4)

其中，GainRatio(D,F)是信息增益率，SplitInformation(D,F)是分离信息（Split Information）。
例如，对于图8，根据特征Day计算信息增益率：

S p l i t I n f o r m a t i o n (D, D a y) G a i n (D, D a y) G a i n R a t i o (D, D a y) = = = = = = - 114 * log 2 114 * 14 3.807354922057603 - 514 * log 2 514 - 914 * log 2 914 1.485426827170242 1.485426827170242 3.807354922057603 0.390146665488038

而以Outlook作为特征进行划分的信息增益率：

S p l i t I n f o r m a t i o n (O u t l o o k) G a i n R a t i o (D, O u t l o o k) = = = = - 5 / 14 * log 2 514 - 414 * log 2 414 - 514 * log 2 514 1.577406282852345 1.485426827170242 1.577406282852345 0.941689432404326

显然GainRatio(D,Outlook)要比GainRatio(D,Day)大，因此就不会选择信息增益最大的特征Day。
需要注意的是，SplitInformation(D,F)描述的是特征对训练集的分辨能力，SplitInformation(D,F)越大说明其对应的特征种类越多。并不表征其对类别的分辨能力。
利用C4.5构造决策树的过程和利用ID3是一样的，只需要将选择特征的标准由信息增益换成信息增益率即可。另外，C4.5可以处理连续数据，例如：

图9

对于图9训练集，Temperature特征和Humidity特征均属于连续特征。
C4.5处理连续属性的方法是先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的，但对于有限的采样数据它是离散的，如果有N个样本，那么我们有N−1种离散化的方法，给定分界点Value，小于等于Value的分到左子树，大于Value的分到右子树。计算这N−1种情况下最大的信息增益率。
在离散属性上只需要计算1次信息增益率，而在连续属性上却需要遍历计算N−1次以确定最优的分割点，计算量是相当大的。有办法可以减少计算量，对于连续属性先进行排序，只有在决策属性发生改变的地方才需要切开。比如对Temperature进行排序：

图10

本来需要计算13次来确定分界点，现在只需计算7次。一般使用增益来选择连续值特征的分界点，因为如果利用增益率来选择连续值特征的分界点，会有一些副作用。分界点将样本分成两个部分，这两个部分的样本个数之比也会影响增益率。根据增益率公式可以发现，当分界点能够把样本分成数量相等的两个子集时（此时的分界点为等分分界点），增益率的抑制会被最大化，因此等分分界点被过分抑制了。子集样本个数能够影响分界点，显然不合理。因此在确定有连续值的特征的分界点时还是采用增益，而在分界点确定之后选择特征的时候才使用增益率。这个改进能够很好得抑制连续值属性的倾向。
对有连续值的特征构造出的决策树形如：

图11

决策边界

决策树的决策边界是一些垂直于特征的线，例如对于一维特征，决策边界类似：

图12

对于二维特征，决策边界类似：

图13

C4.5优点：
a. 使用信息增益率作为划分的标准，克服了ID3使用信息增益带来的选择特征时偏向于选择取值多的特征的问题；
b. 可以处理连续的特征；
c. 在构造树的同时进行剪枝；
d. 可以处理不完整的数据
对于如何进行剪枝、如何处理不完整的数据，后续会有专题文章。
C4.5缺点：1.在构造决策树的过程中，需要对数据集进行多次顺序扫描和排序，因此算法比较低效；2.C4.5只适合处理训练集小的样本，如果训练集样本过大，内存无法容纳所有的数据集是无法完成决策树的构造的。

CART(Classification and Regression Tree)

分类与回归树（CART）算法也可以用来构造决策树，并且CART构造出的决策树是二叉树。CART算法既可以用于分类又可以用于回归。
分类与回归树模型采用不同的标准来选择最优的特征，CART分类树采用基尼指数，CART回归树采用最小加权平均方差。

CART分类树

对于给定样本集合D，有K个类别，每个类别样本个数为Ck，k=(0,1,…,K)，则基尼指数可定义为：

G i n i (D) = 1 - \sum k = 1 K (C k D) 2 (5)

如果根据特征F来进行划分，则根据F的取值可将D划分为两个子集D1、D2，则在特征F的条件下，集合D的基尼指数为：

G i n i (D, F) = D 1 D G i n i (D 1) + D 2 D G i n i (D 2) (6)

其中，D，D1，D2在公式(5)中用作集合中样本数目。

为展示方便还拿图2的数据说明利用基尼指数构造CART分类树的过程。

以Credit为特征进行划分：
CART算法构造的决策树是二叉树，而特征Credit有三个取值，因此需要将Credit的三个取值中的两个进行合并，因此需要进行遍历合并求基尼指数来确定哪两个值合并是最好的。
1. excellent与 fair合并：
  $G i n i (D, e x c e l l e n t + f a i r) G i n i (D, p o o r) G i n i (D, C r e d i t) = = = = = = 1 - (46) 2 - (26) 2 0.4444 1 - (13) 2 - (23) 2 0.4444 69 * 0.4444 + 39 * 0.4444 0.4444$
2. excellent与 poor合并：
  $G i n i (D, e x c e l l e n t + p o o r) G i n i (D, f a i r) G i n i (D, C r e d i t) = = = = = = 1 - (25) 2 - (35) 2 0.48 1 - (34) 2 - (14) 2 0.375 59 * 0.48 + 49 * 0.375 0.4333$
3. fair与 poor合并：
  $G i n i (D, f a i r + p o o r) G i n i (D, e x c e l l e n t) G i n i (D, C r e d i t) = = = = = = 1 - (47) 2 - (37) 2 0.4898 1 - (12) 2 - (12) 2 0.5 79 * 0.4898 + 29 * 0.5 0.4921$
以Term为特征进行划分：
$G i n i (D, 3 y r s) G i n i (D, 5 y r s) G i n i (D, T e r m) = = = = = = 1 - (35) 2 - (25) 2 0.48 1 - (24) 2 - (24) 2 0.5 59 * 0.48 + 49 * 0.5 0.4889$
以Income为特征进行划分：
$G i n i (D, h i g h) G i n i (D, l o w) = G i n i (D, I n c o m e) = = = = = = 1 - (35) 2 - (25) 2 0.48 1 - (24) 2 - (24) 2 0.5 59 * 0.48 + 49 * 0.5 0.4889$
比较Gini(D,Credit)、Gini(D,Term)、Gini(D,Income)可知按照特征Credit进行划分且将excellent与poor合并的基尼指数最小，所以决策树的根节点就取Credit。
此时的树为：

图14

下面需要分别对N1和N2进行划分：

对于N1：
以Term为特征进行划分：
$G i n i (N 1, 3 y r s) G i n i (N 1, 5 y r s) G i n i (N 1, T e r m) = = = = = = 1 - (13) 2 - (23) 2 0.4444 1 - (12) 2 - (12) 2 0.5 35 * 0.4444 + 25 * 0.5 0.4666$
以Income为特征进行划分：
$G i n i (N 1, h i g h) G i n i (N 1, l o w) G i n i (N 1, I n c o m e) = = = = = = 1 - (13) 2 - (23) 2 0.4444 1 - (12) 2 - (12) 2 0.5 35 * 0.4444 + 25 * 0.5 0.4666$
对于N2：
以Term为特征进行划分：
$G i n i (N 2, 3 y r s) G i n i (N 2, 5 y r s) G i n i (N 2, T e r m) = = = = = = 1 - (22) 2 - (02) 2 0 1 - (12) 2 - (12) 2 0.5 24 * 0 + 24 * 0.5 0.25$
以Income为特征进行划分：
$G i n i (N 2, h i g h) G i n i (N 2, l o w) G i n i (N 2, I n c o m e) = = = = = = 1 - (22) 2 - (02) 2 0 1 - (12) 2 - (12) 2 0.5 24 * 0 + 24 * 0.5 0.25$
根据上面的计算可知对于N1和N2利用Term进行划分和利用Income进行划分基尼指数都是相等的。此时满足了构造决策树终止的条件，因此算法终止。从这里我们也可以知道，该问题使用决策树算法并不能得到很好的解决。

CART回归树

学习决策树可归结为对实例空间进行划分，使得每个隔离的空间都具有较小的方差。在回归问题中，特征值是连续型而非二值型的，CART构造回归树就是找到合适的特征对数据集D进行划分使得每个划分后的子数据集方差最小。
定义数据集D的方差为各个元素到该数据集均值的均方距离：

V a r (D) = 1 N \sum i = 1 N (y i - y ¯) 2 (7)

其中，N表示数据集中元素的个数，yi为每个样本的取值，y¯表示数据集D的均值。
如果根据特征F对数据集D进行划分，将数据集D划分成了m个互斥子集{D1,D2,…,Dm}，则加权平均方差定义为：

V a r ({D 1, D 2, \dots, D m}) = = = = \sum j = 1 m | D j | N V a r (D j) \sum j = 1 m | D j | N (1 | D j | \sum k = 1 | D j | y 2 - y j ¯ 2) 1 N \sum i = 1 N y 2 i - \sum j = 1 m | D j | N y j ¯ 2 1 N \sum j = 1 m y 2 j - y ¯ 2 (8)

其中|Dj|用作第j个划分子集的元素个数。
从公式(7)可以看出，方差是集合中元素平方的均值与均值的平方之差。因此，选择特征使得所有可能的划分子集的方差最小化等价于选择特征使得所有可能的划分子集的加权平均最大化。
利用下图中的样本来说明CART算法构造回归树的过程：

图15

图15的数据集D总共涉及三种特征，因此三种可能的划分方案为：

M o d e l C o n d i t i o n L e s l i e = = = [A 100, B 3, E 112, M 102, T 202] \to [1051, 1770, 1900] [4513] [77] [870] [99, 270, 625] [e x c e l l e n t, g o o d, f a i r] \to [1770, 4513] [270, 870, 1051, 1900] [77, 99, 625] [y e s, n o] \to [625, 870, 1900] [77, 99, 270, 1051, 1770, 4513]

用Ave表示均值，WeiSquAve表示方均值的加权平均，则对于图15的数据：

根据特征Model进行划分：
$A v e (A 100) A v e (B 3) A v e (E 112) A v e (M 102) A v e (T 202) W e i S q u A v e (D, M o d e l) = = = = = = = = = 1051 + 1770 + 1900 3 1573.6667 451377870 99 + 270 + 625 3 331.3333 39 * A v e 2 (A 100) + 19 * A v e 2 (B 3) + 19 * A v e 2 (E 112) + 19 * A v e 2 (M 102) + 39 * A v e 2 (T 202) 3.2098 \cdot 106$
根据特征Condition进行划分：
$A v e (e x c e l l e n t) A v e (g o o d) A v e (f a i r) W e i S q u A v e (D, C o n d i t i o n) = = = = = = = = 1770 + 4513 2 3141.5 270 + 870 + 1051 + 1900 4 1022.75 77 + 99 + 625 3 267 29 * A v e 2 (e x c e l l e n t) + 49 * A v e 2 (g o o d) + 39 * A v e 2 (f a i r) 2.6818 \cdot 106$
根据特征Leslie进行划分：
$A v e (y e s) A v e (n o) W e i S q u A v e (D, L e s l i e) = = = = = = 625 + 870 + 1900 3 1131.6667 77 + 99 + 270 + 1051 + 1770 + 4513 6 1296.6667 39 * A v e 2 (y e s) + 69 * A v e 2 (n o) 1.5478 \cdot 106$
比较WeiSquAve(D,Model)、WeiSquAve(D,Condition)、WeiSquAve(D,Leslie)可知WeiSquAve(D,Model)最大，因此应该选择特征Model进行划分，该步划分的结果为：

图16

接下来需要对数据集N1和N2分别选择特征继续划分。
对于N1

根据特征Condition进行划分：
$A v e (e x c e l l e n t) A v e (g o o d) A v e (f a i r) W e i S q u A v e (N 1, C o n d i t i o n) = = = = = = 1770 1051 + 1900 2 1475.5 0 13 * A v e 2 (e x c e l l e n t) + 23 * A v e 2 (g o o d) + 03 * A v e 2 (f a i r) 2.4957 \cdot 106$
根据特征Leslie进行划分：
$A v e (y e s) A v e (n o) W e i S q u A v e (N 1, L e s l i e) = = = = = 1900 1051 + 1770 2 1410.5 13 * A v e 2 (y e s) + 23 * A v e 2 (n o) 2.5297 \cdot 106$
比较WeiSquAve(N1,Condition)、WeiSquAve(N1,Leslie)可知WeiSquAve(N1,Leslie)最大，因此应该选择特征Leslie进行划分。

对于N2

根据特征Condition进行划分：
$A v e (e x c e l l e n t) A v e (g o o d) A v e (f a i r) W e i S q u A v e (N 2, C o n d i t i o n) = = = = = = 0270 99 + 625 2 362 03 * A v e 2 (e x c e l l e n t) + 13 * A v e 2 (g o o d) + 23 * A v e 2 (f a i r) 111, 662.6667$
根据特征Leslie进行划分：
$A v e (y e s) A v e (n o) W e i S q u A v e (N 2, L e s l i e) = = = = = 625 99 + 270 2 184.5 13 * A v e 2 (y e s) + 23 * A v e 2 (n o) 152, 901.8333$
比较WeiSquAve(N2,Condition)、WeiSquAve(N2,Leslie)可知WeiSquAve(N2,Leslie)最大，因此应该选择特征Leslie进行划分。
因此，最终构造的决策回归树为：

图17

scikit-learn实现CART分类决策树：
使用图9的数据进行演示：

import numpy as np
import pandas as pd
from sklearn import tree
#导出为pdf所需package
import graphviz

#scikit learn中CART分类树
CARTClassificationTree = tree.DecisionTreeClassifier()

#准备数据
adict = {'Outlook':'Sunny','Sunny','Overcast','Rainy','Rainy','Rainy','Overcast',
                   'Sunny','Sunny','Rainy','Sunny','Overcast','Overcast','Rainy'],
         'Temperature':[85,80,83,70,68,65,64,72,69,75,75,72,81,71],
         'Humidity':[85,90,78,96,80,70,65,95,70,80,70,90,75,80],
         'Windy':False,True,False,False,False,True,True,
                 False,False,False,True,True,False,True]}
dfx = pd.DataFrame(adict)
#进行one-hot编码
onehot_dfx = pd.get_dummies(dfx)
#给X赋值
dataX = onehot_dfx.values         
#给Y赋值
dataY = np.array(['No','No','Yes','Yes','Yes','No','Yes',
                  'No','Yes','Yes','Yes','Yes','Yes','No'])

#训练模型
CARTClassificationTree.fit(dataX,dataY)

#输出CART分类决策树并导出为pdf格式
dot_data = tree.export_graphviz(CARTClassificationTree,out_file=None,
                                class_names=npY,feature_names=onehot_dfx.columns,
                                filled=True,rounded=True,special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('PlayGolf')

最终的CART分类决策树为：

图18

scikit-learn实现CAR回归决策树：
使用图15的数据进行演示：

import numpy as np
import pandas as pd
from sklearn import tree
#导出为pdf所需package
import graphviz

#scikit learn中CART回归树
CARTRegressionTree = tree.DecisionTreeRegressor()

#准备数据
adict = {'Model':['B3','T202','A100','T202','M102','A100','T202','A100','E112'],
         'Condition':['excellent','fair','good','good','good','excellent','fair','good','fair'],
         'Leslie':['no','yes','no','no','yes','no','no','yes','no']}
dfx = pd.DataFrame(adict)
#进行one-hot编码
onehot_dfx = pd.get_dummies(dfx)
#给X赋值
dataX = onehot_dfx.values
#给Y赋值
dataY = np.array([4513,625,1051,270,870,1770,99,1900,77])

#训练模型
CARTRegressionTree.fit(dataX,dataY)

#输出CART分类决策树并导出为pdf格式
dot_data = tree.export_graphviz(CARTRegressionTree,out_file=None,feature_names=onehot_dfx.columns,
                                filled=True,rounded=True,special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('Price')

最终的CART回归决策树为：

图19

更多完整资料请移步github：
https://github.com/GarryLau/MachineLearning

上一篇：机器学习-逻辑回归

下一篇： lasso 回归 & 岭回归

决策树(Decision Tree)

决策树(Decision Tree)

基本概念

构造决策树的算法

ID3

C4.5

决策边界

CART(Classification and Regression Tree)

CART分类树

CART回归树

Element-ui tree组件自定义节点使用方法

Python决策树之基于信息增益的特征选择示例

Graphviz可视化决策树框架（生成决策树、可视化树）

决策树模型的流程梳理

webpack4 CSS Tree Shaking的使用

详解vue-element Tree树形控件填坑路

python实现决策树ID3算法的示例代码

Linux学习-Tree命令安装和使用

CodeForces 29D Ant on the Tree

MySQL使用B+Tree当索引的优势有哪些