非线性分类和决策树(scikit-learn 机器学习)

程序员文章站 2023-12-09 19:10:03

文章目录本文为 scikit-learn机器学习（第2版）学习笔记...

文章目录

1. 特征选择标准
2. 网页广告预测

2.1 数量处理
2.2 网格搜索模型参数

3. 决策树优缺点

本文为 scikit-learn机器学习（第2版）学习笔记

相关知识：《统计学习方法》决策树（Decision Tree，DT）

1. 特征选择标准

信息增益，得知特征X的信息而使得类Y的信息的不确定性减少的程度。
信息增益比，信息增益的占比，选择大的特征
基尼系数，表示经特征 A 分割后集合 D 的不确定性，选择基尼系数小的特征

2. 网页广告预测

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

df = pd.read_csv('./ad.data', header=None)
df.head(10)

非线性分类和决策树(scikit-learn 机器学习)
数据前3列为广告图片的宽高、长宽比，余下特征为文字变量出现频率的编码特征
最后一列为标签列，是否为广告

2.1 数量处理

分离标签

y = df[len(df.columns)-1]
y

0          ad.
1          ad.
2          ad.
3          ad.
4          ad.
         ...  
3274    nonad.
3275    nonad.
3276    nonad.
3277    nonad.
3278    nonad.
Name: 1558, Length: 3279, dtype: object

y = [1 if e == 'ad.' else 0 for e in y]

特征提取

X = df.drop(df.columns[len(df.columns)-1], axis=1)
X

非线性分类和决策树(scikit-learn 机器学习)

填补？无效数据

X.replace(to_replace=' *\?', value=-1,regex=True,inplace=True)
X

非线性分类和决策树(scikit-learn 机器学习)

2.2 网格搜索模型参数

X_train, X_test, y_train, y_test = train_test_split(X, y)

pipeline = Pipeline([
    ('clf', DecisionTreeClassifier(criterion='entropy'))
])
parameters = {
    'clf__max_depth': (150, 155, 160),
    'clf__min_samples_split': (2, 3),
    'clf__min_samples_leaf': (1, 2, 3)
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=-1, verbose=1, scoring='f1')
grid_search.fit(X_train, y_train)

best_parameters = grid_search.best_estimator_.get_params()
print('Best score: %0.3f' % grid_search.best_score_)
print('Best parameters set:')
for param_name in sorted(parameters.keys()):
    print('t%s: %r' % (param_name, best_parameters[param_name]))

predictions = grid_search.predict(X_test)
print(classification_report(y_test, predictions))

Best score: 0.890
Best parameters set:
tclf__max_depth: 155
tclf__min_samples_leaf: 2
tclf__min_samples_split: 2
              precision    recall  f1-score   support

           0       0.97      0.99      0.98       716
           1       0.94      0.82      0.88       104

    accuracy                           0.97       820
   macro avg       0.96      0.91      0.93       820
weighted avg       0.97      0.97      0.97       820

看见广告类1的，精准率和召回率都还不错。

3. 决策树优缺点

优点：

不要求对数据进行标准化
可以进行多元分类而无需使用OvO，OvA等策略

缺点：

更容易过拟合，需要剪枝（设置树的最大深度、节点实例数量超过阈值才建立子节点）
本质上是贪心算法，不保证全局最优

本文地址：https://blog.csdn.net/qq_21201267/article/details/107053535

上一篇：索尼PS4/PS Vita游戏机正式入华 PS4售2899元

非线性分类和决策树(scikit-learn 机器学习)

文章目录

1. 特征选择标准

2. 网页广告预测

2.1 数量处理

2.2 网格搜索模型参数

3. 决策树优缺点

非线性分类和决策树(scikit-learn 机器学习)

非线性分类和决策树(scikit-learn 机器学习)

机器学习算法的分类：关于如何选择机器学习算法和适用解决的问题

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记第6章决策树

人工智能-机器学习-算法-分类算法：决策树与随机森林算法

机器学习实战：基于Scikit-Learn和TensorFlow---第二章笔记

机器学习实践之集成方法（随机森林和AdaBoost元算法提高分类性能）

python机器学习之决策树分类详解

机器学习算法python实现应用机器学习于情感分析-训练文档分类（在线算法和核心学习）

Python机器学习之决策树和随机森林

非线性分类和决策树(scikit-learn 机器学习)

文章目录

1. 特征选择标准

2. 网页广告预测

2.1 数量处理

2.2 网格搜索模型参数

3. 决策树优缺点

非线性分类和决策树(scikit-learn 机器学习)

非线性分类和决策树(scikit-learn 机器学习)

机器学习算法的分类：关于如何选择机器学习算法和适用解决的问题

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记 第6章 决策树

人工智能-机器学习-算法-分类算法：决策树与随机森林算法

机器学习实战：基于Scikit-Learn和TensorFlow---第二章笔记

机器学习实践之集成方法（随机森林和AdaBoost元算法提高分类性能）

python机器学习之决策树分类详解

机器学习算法python实现应用机器学习于情感分析-训练文档分类（在线算法和核心学习）

Python机器学习之决策树和随机森林

机器学习实战:基于Scikit-Learn和TensorFlow 读书笔记第6章决策树