决策树模型(1)
分类
通过已有的训练集,输入相应的模型中训练拟合,在通过检验集进行进行验证,从而预测未知样本类;
常用的分类法有决策树分类,基于规则的分类,神经网络,支持向量机, 朴素贝叶斯分类法,通常每一种分类方法都对应这一种模型算法。决策树模型就是其中的一种学习算法
混淆矩阵
通过将计数存放在混淆矩阵中,根据正确和错误预测来评估模型的性能
| |预测的类 |
| |:类=1 |类=0 |
|实际的类|类=1|:f _11 |: f _10|
| |:类=0|:f _01 |:f _00 |
通过性能度量正确率、错误率来比较不同模型之间的性能
正确率= (f_11 + f _00) / (f _11+f _10+f _01+ f _00)
错误率= (f_01 + f _10) / (f _11+f _10+f _01+ f _00)
决策树原理
import 根节点
if 条件
叶节点
elseif 条件
叶节点
elseif
...
end
建立决策树
如果没有任何限制(即贪婪策略),可以建立数目达到指数级别的决策树,但要想从这些决策树中找出最优的决策树,往往限制庞大的计算量和时间。所以闲的蛋疼的人就开发出各种算法来有效的算法来建立最优决策树,Hunt算法就是其中一种,Hunt算法也是众多决策树算法中的一种,包括ID3,C4.5,CART(只能产生二元划分)等
Hunt算法
在Hunt算法中,通过将训练记录划分成较纯的子集,以递归的方式建立决策树
1、def:
2、分裂
3、结束
属性测试条件:
二元属性:产生两个可能的输出
标称属性:含有多个属性,通过多种方法表示测试条件,eg:已婚,离异,单身狗;
序数属性:不违有序性的标称属性;
连续属性:可通过比较测试来分段分类;
选择最佳划分的度量
通常是根据划分后子女节点的不纯性程度,不纯度越低,类分布就越倾斜
Entropy、Gini、Classification error 等等啦
信息增益:一般为了测试条件的效果,需要比较父节点(划分前)的不纯度和子女节点的不纯度,差值越大,测试条件效果就越好,可以通过信息增益△来确定划分效果
最大化信息增益等价与子女节点的不纯度的加权平均
.
.
.
过分拟合和多重比较
for example
预测未来10个交易日股市是升还是降,假如随机猜测,猜对的概率为0.5,那么10次至少猜中8次的概率是:
如果是50个人随机猜测,那个至少有一个人猜中8次以上的概率:
0.9399!!!
如果我们抓取50个股票分析专家对同一支股票的预测结果,从而预测后续十天的涨跌,是不是可以保赚不赔了。
上一篇: 阿里图标库的使用