欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

决策树_基本概念

程序员文章站 2022-05-21 23:45:56
...

衡量标准-熵(P):表示随机变量的不确定性的度量(物体内部的混乱程度) P=0.5不确定性最大 P=1或者P=0 完全没有不确定性

* 熵计算公式 H(x) = -∑p(xi)log(2,p(xi)) (i=1,2,..n)
* 栗子1 义乌杂货市场商品很多很混乱熵值会比较大
* 栗子2 苹果专卖店只有苹果品牌比较稳定,熵值很小

信息增益:表示特征X使得类Y的不确定减少的程度

Gini系数:决策树_基本概念

实例构造:

(1) 14天打球情况:9天去打球5天不打球,此时熵为:0.940决策树_基本概念
(2-1) 14天outlook情况:Outlook = sunny时,熵值为0.971 Outlook = overcast时,熵值为0 Outlook = rainy时,熵值为0.971

决策树_基本概念

(2-2)outlook取值分别为sunny,overcast,rainy的概率分别为: 5/14, 4/14, 5/14
(2-3)熵值计算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(3)ID3算法 信息增益:系统的熵值从原始的0.940下降到了0.693,增益为0.247

剪枝:决策树过拟合风险很大

(1)预剪枝(常用):建立决策树同时进行剪枝 限制深度&叶子节点个数&叶子节点样本数&信息增益量
(2)后剪枝 建立完决策树后进行剪枝决策树_基本概念
 TLeaf 叶子节点个数 C(T)=gini*samples 表示当前的损失  Cα(T)越小越好
相关标签: 决策树