决策树算法

程序员文章站 2022-06-13 15:53:35

...

ID3算法是一种贪心算法，用来构造决策树。ID3算法起源于概念学习系统（CLS），以信息熵的下降速度为选取测试属性的标准，即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准，然后继续这个过程，直到生成的决策树能完美分类训练样例。本代码使用ID3算法来构造决策树：

from math import log
import operator

#创建数据集
def createDataSet():
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

def majorityCnt(classList):
    classCount = {} #创建标签字典
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) #按标签个数降序排列
    return sortedClassCount[0][0] #输出标签数量最多的标签值

def createTree(dataSet, labels): #labels为特征的标签集
    classList = [example[-1] for example in dataSet] #数据的标签集
    if classList.count(classList[0]) == len(classList): #count函数统计classList[0]出现次数
        return classList[0]
    if len(dataSet[0]) == 1: #只剩下一列标签
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet) #最好的分类特征
    bestFeatLabel = labels[bestFeat] #最好的分类特征的标签
    myTree = {bestFeatLabel:{}} #建立当前树节点，即此标签下分类的数据
    del(labels[bestFeat])  #删除已选的特征标签值
    featValues = [example[bestFeat] for example in dataSet]  #具体特征值
    uniqueVals = set(featValues) #删除特征重复项
    for value in uniqueVals:
        subLabels = labels[:] #复制新的labels特征标签
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels) #递归
    return myTree

myDat, labels = createDataSet()
myTree = createTree(myDat, labels)
print(myTree)

>>{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

1.如果数据集已经处理了所有属性，但是类标签依然不是唯一的，此时使用majorityCnt方法来定义该节点的分类。
2.在createTree中，递归函数的第一个停止条件是所有的类标签完全相同，则直接返回该类标签。递归函数的第二个停止条件是使用完了所有特征，仍然不能讲数据集划分成仅包含唯一类别的分组，所以使用majorityCnt方法。
3.{bestFeatLabel:{}}和myTree[bestFeatLabel][value]是关于字典的嵌套，可以简单测试，例如：

myTree = {"a":{}}
myTree["a"][1]=1313
myTree["a"][2]=3345
print(myTree)

>>{'a': {1: 1313, 2: 3345}}

4.输出结果解释：

{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

从左边开始，第一个关键字no surfacing是第一个划分数据集的特征名称，该关键字的值也是另一个数据字典。第二个关键字是no surfacing特征划分的数据集，这些关键字的值是no surfacing节点的子节点。这些值可能是类标签，也可能是另一个数据字典。如果值是类标签，则该子节点是叶子节点；如果值是另一个数据字典，则子节点是一个判断节点，不断重复就构成了整棵树。

相关标签：决策树机器学习 python 算法数据

上一篇：简单介绍win7下搭建apache+php+mysql开发环境，win7apache_PHP教程

下一篇：创建型原型模式

决策树算法

居理新房研究院：低频长周期场景下的算法设计

node.js之基础加密算法模块crypto详解

排序算法模板实现

C#数据结构与算法揭秘五栈和队列

用java实现冒泡排序算法

位移运算法则（移位运算符的使用）

C#冒泡法排序算法实例分析

C#使用委托实现的快速排序算法实例

C#实现洗牌算法

SQLServer 通用的分区增加和删除的算法

决策树算法

居理新房研究院：低频长周期场景下的算法设计

node.js之基础加密算法模块crypto详解

排序算法模板实现

C#数据结构与算法揭秘五 栈和队列

用java实现冒泡排序算法

位移运算法则（移位运算符的使用）

C#冒泡法排序算法实例分析

C#使用委托实现的快速排序算法实例

C#实现洗牌算法

SQLServer 通用的分区增加和删除的算法

C#数据结构与算法揭秘五栈和队列