决策树_基本概念
程序员文章站
2022-05-21 23:45:56
...
衡量标准-熵(P):表示随机变量的不确定性的度量(物体内部的混乱程度) P=0.5不确定性最大 P=1或者P=0 完全没有不确定性
* 熵计算公式 H(x) = -∑p(xi)log(2,p(xi)) (i=1,2,..n)
* 栗子1 义乌杂货市场商品很多很混乱熵值会比较大
* 栗子2 苹果专卖店只有苹果品牌比较稳定,熵值很小
信息增益:表示特征X使得类Y的不确定减少的程度
Gini系数:
实例构造:
(1) 14天打球情况:9天去打球5天不打球,此时熵为:0.940
(2-1) 14天outlook情况:Outlook = sunny时,熵值为0.971 Outlook = overcast时,熵值为0 Outlook = rainy时,熵值为0.971
(2-2)outlook取值分别为sunny,overcast,rainy的概率分别为: 5/14, 4/14, 5/14
(2-3)熵值计算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(3)ID3算法 信息增益:系统的熵值从原始的0.940下降到了0.693,增益为0.247
剪枝:决策树过拟合风险很大
(1)预剪枝(常用):建立决策树同时进行剪枝 限制深度&叶子节点个数&叶子节点样本数&信息增益量
(2)后剪枝 建立完决策树后进行剪枝
TLeaf 叶子节点个数 C(T)=gini*samples 表示当前的损失 Cα(T)越小越好
上一篇: Redis集群
下一篇: php+xml实现在线英文词典查询的方法