数据挖掘：实用机器学习技术

程序员文章站 2022-04-02 12:38:03

目录：Contents 序 Foreword 前言 Preface 第一部分：机器学习工具与技术第1章绪论 What's it al...

目录：Contents
序 Foreword
前言 Preface
第一部分：机器学习工具与技术
第1章绪论 What's it all about?
1.1 数据挖掘和机器学习
说明结构模式
机器学习
数据挖掘
1.2 简单例子：天气问题和其它
天气问题
隐形眼镜：一个理想化的问题 Contact lenses: An idealized problem
鸢尾花：一个一流的数值型数据集 Irises: A classic numeric dataset
CPU性能：介绍数值的预测 CPU performance: Introducing numeric prediction
劳资协商：一个更实际的例子 Labor negotiations: A more realistic example
大豆分类法：一个经典的机器学习的成功案例 Soybean classification: A classic machine learning success
1.3 应用领域
包括评判的决策 Decisions involving judgment
筛选图像 Screening images 图像筛选
负载预测 Load forecasting
诊断调查分析 Diagnosis
市场和销售 Marketing and sales
其它应用 Other applications
1.4 机器学习和统计学 statistics
1.5 用于搜索的概括总结 Generalization as search
各种概念 Enumerating the concept space 枚举概念空间
倾向性 Bias 偏差
1.6 数据挖掘和伦理观数据挖掘和道德
1.7 补充读物
第2章输入：概念、实例和属性
2.1 概念
2.2 样本
2.3 属性
2.4 输入准备
数据整理 Gathering the data together 数据收集
ARFF文件格式 ARFF format
稀疏型的数据 Sparse data
属性类型 Attribute types
遗漏的值 Missing values 残缺值
不准确的值 Inaccurate values
了解你的数据 Getting to know your data
2.5 补充读物
第3章输出：知识表达 Knowledge representation
3.1 决策表 Decision tables
3.2 决策树 Decision trees
3.3 分类规则 Classification rules
3.4 关联规则 Association rules
3.5 包含例外的规则 Rules with exceptions
3.6 包含联系的规则 Rules involving relations
3.7 数据预测树 Trees for numeric prediction
3.8 基于实例的表达 Instance-based representation
3.9 Clusters 聚类
3.10 补充读物 Further reading
第4章算法：基本方法 Algorithms:The basic methods
4.1推断基本规则：Inferring rudimentary rules
遗漏的数值和数据属性 Missing values and numeric attributes 残缺值和数值属性
论述 Discussion 讨论
4.2 统计模型 Statistical modeling 统计建模
遗漏的数值和数据属性残缺值和数值属性
用于文档分类的贝叶斯定理模型 Bayesian models for document classification
讨论 Discussion
4.3 分治法：创建决策树 Divide-and-conquer:Constructing decision trees
计算信息量 Calculation information
高度分支属性 Highly branching attributes
讨论
4.4 覆盖算法：建立规则 Covering algorithms:Constructing rules
对比规则和树 Rules versus trees
一个简单的覆盖算法 A simple covering algorithm
规则和决策对比表 Rules versus decision lists 规则与决策列
4.5 挖掘关联规则 Mining association rules
条目集或项目集 Item sets 项集
关联规则 Association rules
建立有效的规则 Generating rules efficiently 有效地建立规则
讨论
4.6 线性模型 Linear models
数据预测：线性回归 Numeric prediction:Linear regression
线性预测：逻辑回归 Logistic regression
应用感知器的线性分类 Linear classification using the perceptron
应用辨别筛选的线性分类 Linear classification using Winnow
4.7 基于实例的学习
距离函数 The distance function
高效的发现近邻 Finding nearest neighbors efficiently 有效地寻找最近邻
讨论
4.8 聚类 Clustering
基于距离的迭代聚类 Iterative distance-based clustering
更快的距离计算 Faster distance calculations 快速的距离计算
讨论
4.9 补充读物
第5章可信度：评估机器学习成果 Credibility:Evaluating what's been learned
5.1 训练和测试
5.2 预测性能 Prdicting performance
5.3 交叉验证 Cross-validation
5.4 其它估计法 estimates
留一交叉校验法 Leave-one-out
仿真程序 The bootstrap 自引导法
5.5 比较数据挖掘方法
5.6 预测概率
二次方程损耗函数 Quadreatic loss function
信息损耗函数 Informational loss function
讨论
5.7 计算成本
敏感成本分类 Cost-sensitive classification 成本敏感分类
敏感成本学习 Cost-sensitive learning
升降图表 Lift charts 上升图
无线曲线 Roc curves ROC曲线
回叫精确曲线 Recall-precision curves 反馈率-精确率曲线
讨论
成本曲线 Cost curves
5.8 评估数字预测 Evaluating numeric prediction
5.9 最短表达(描述)长度原理 The minimum description length principle
5.10 聚类方法中应用MDL原理 Applying the MDL principle to clustering
5.11 补充读物
第6章实现：真正的机器学习方案 Real machine learning schemes
6.1 决策树 Decision trees
数值属性 Numeric attributes
筛选值 Missing values
修剪整理 Pruning
估算错误比率 Estimating error rates
复杂决策树介绍 Complexity of decision tree induction
从树到规则 From trees to rules
精选和任意选择 C4.5 Choices and options
论述
6.2 分类规则 Classification rules
选择标准测试 Criteria for choosing tests
筛选值和数值属性 Missing values numeric attributes
创建良好的规则 Generating good rules
应用全局优化 Using global optimization
从局部决策树获取规则 Obtaining rules from partial decision trees
包含例外的规则 Rules with exception
6.3 扩展线性模型 Extending linear models
最大边缘超平面 The maximum margin hyperplane
非线性类别边界 Nonlinear class bou

上一篇：第九届中国机器学习会议

下一篇： 300多名智能机器人行业专家深圳论道

数据挖掘：实用机器学习技术

Python数据挖掘(烟火图像分类：传统机器学习建模方法与卷积神经网络性能比较)

大数据学习路线图让你精准掌握大数据技术学习

谷歌机器人很尴尬：技术很炫酷但缺乏实用价值

荐 14天数据分析与机器学习实践之Day02——数据分析处理库Pandas应用总结

收藏 | 数据分析师最常用的10个机器学习算法！

【机器学习】（一）jupter notebook、初识数据的步骤

大数据学习路线图让你精准掌握大数据技术学习？

全球人工智能与机器学习技术大会苏绥解析360金融AI实践之旅

网络时代海量数据挖掘的关键技术及应用现状

spark 机器学习基础数据类型

数据挖掘：实用机器学习技术

Python数据挖掘(烟火图像分类：传统机器学习建模方法与卷积神经网络性能比较)

大数据学习路线图 让你精准掌握大数据技术学习

谷歌机器人很尴尬：技术很炫酷但缺乏实用价值

荐 14天数据分析与机器学习实践之Day02——数据分析处理库Pandas应用总结

收藏 | 数据分析师最常用的10个机器学习算法！

【机器学习】（一）jupter notebook、初识数据的步骤

大数据学习路线图 让你精准掌握大数据技术学习？

全球人工智能与机器学习技术大会 苏绥解析360金融AI实践之旅

网络时代海量数据挖掘的关键技术及应用现状

spark 机器学习基础 数据类型

大数据学习路线图让你精准掌握大数据技术学习

大数据学习路线图让你精准掌握大数据技术学习？

全球人工智能与机器学习技术大会苏绥解析360金融AI实践之旅

spark 机器学习基础数据类型