数据挖掘:实用机器学习技术
目录:Contents
序 Foreword
前言 Preface
第一部分:机器学习工具与技术
第1章 绪论 What's it all about?
1.1 数据挖掘和机器学习
说明结构模式
机器学习
数据挖掘
1.2 简单例子:天气问题和其它
天气问题
隐形眼镜:一个理想化的问题 Contact lenses: An idealized problem
鸢尾花:一个一流的数值型数据集 Irises: A classic numeric dataset
CPU性能:介绍数值的预测 CPU performance: Introducing numeric prediction
劳资协商: 一个更实际的例子 Labor negotiations: A more realistic example
大豆分类法:一个经典的机器学习的成功案例 Soybean classification: A classic machine
learning success
1.3 应用领域
包括评判的决策 Decisions involving judgment
筛选图像 Screening images 图像筛选
负载预测 Load forecasting
诊断 调查分析 Diagnosis
市场和销售 Marketing and sales
其它应用 Other applications
1.4 机器学习和统计学 statistics
1.5 用于搜索的概括总结 Generalization as search
各种概念 Enumerating the concept space 枚举概念空间
倾向性 Bias 偏差
1.6 数据挖掘和伦理观 数据挖掘和道德
1.7 补充读物
第2章 输入:概念、实例和属性
2.1 概念
2.2 样本
2.3 属性
2.4 输入准备
数据整理 Gathering the data together 数据收集
ARFF文件格式 ARFF format
稀疏型的数据 Sparse data
属性类型 Attribute types
遗漏的值 Missing values 残缺值
不准确的值 Inaccurate values
了解你的数据 Getting to know your data
2.5 补充读物
第3章 输出:知识表达 Knowledge representation
3.1 决策表 Decision tables
3.2 决策树 Decision trees
3.3 分类规则 Classification rules
3.4 关联规则 Association rules
3.5 包含例外的规则 Rules with exceptions
3.6 包含联系的规则 Rules involving relations
3.7 数据预测树 Trees for numeric prediction
3.8 基于实例的表达 Instance-based representation
3.9 Clusters 聚类
3.10 补充读物 Further reading
第4章 算法:基本方法 Algorithms:The basic methods
4.1推断基本规则:Inferring rudimentary rules
遗漏的数值和数据属性 Missing values and numeric attributes 残缺值和数值属性
论述 Discussion 讨论
4.2 统计模型 Statistical modeling 统计建模
遗漏的数值和数据属性 残缺值和数值属性
用于文档分类的贝叶斯定理模型 Bayesian models for document classification
讨论 Discussion
4.3 分治法:创建决策树 Divide-and-conquer:Constructing decision trees
计算信息量 Calculation information
高度分支属性 Highly branching attributes
讨论
4.4 覆盖算法:建立规则 Covering algorithms:Constructing rules
对比规则和树 Rules versus trees
一个简单的覆盖算法 A simple covering algorithm
规则和决策对比表 Rules versus decision lists 规则与决策列
4.5 挖掘关联规则 Mining association rules
条目集或项目集 Item sets 项集
关联规则 Association rules
建立有效的规则 Generating rules efficiently 有效地建立规则
讨论
4.6 线性模型 Linear models
数据预测:线性回归 Numeric prediction:Linear regression
线性预测:逻辑回归 Logistic regression
应用感知器的线性分类 Linear classification using the perceptron
应用辨别筛选的线性分类 Linear classification using Winnow
4.7 基于实例的学习
距离函数 The distance function
高效的发现近邻 Finding nearest neighbors efficiently 有效地寻找最近邻
讨论
4.8 聚类 Clustering
基于距离的迭代聚类 Iterative distance-based clustering
更快的距离计算 Faster distance calculations 快速的距离计算
讨论
4.9 补充读物
第5章 可信度:评估机器学习成果 Credibility:Evaluating what's been learned
5.1 训练和测试
5.2 预测性能 Prdicting performance
5.3 交叉验证 Cross-validation
5.4 其它估计法 estimates
留一交叉校验法 Leave-one-out
仿真程序 The bootstrap 自引导法
5.5 比较数据挖掘方法
5.6 预测概率
二次方程损耗函数 Quadreatic loss function
信息损耗函数 Informational loss function
讨论
5.7 计算成本
敏感成本分类 Cost-sensitive classification 成本敏感分类
敏感成本学习 Cost-sensitive learning
升降图表 Lift charts 上升图
无线曲线 Roc curves ROC曲线
回叫精确曲线 Recall-precision curves 反馈率-精确率曲线
讨论
成本曲线 Cost curves
5.8 评估数字预测 Evaluating numeric prediction
5.9 最短表达(描述)长度原理 The minimum description length principle
5.10 聚类方法中应用MDL原理 Applying the MDL principle to clustering
5.11 补充读物
第6章 实现:真正的机器学习方案 Real machine learning schemes
6.1 决策树 Decision trees
数值属性 Numeric attributes
筛选值 Missing values
修剪整理 Pruning
估算错误比率 Estimating error rates
复杂决策树介绍 Complexity of decision tree induction
从树到规则 From trees to rules
精选和任意选择 C4.5 Choices and options
论述
6.2 分类规则 Classification rules
选择标准测试 Criteria for choosing tests
筛选值和数值属性 Missing values numeric attributes
创建良好的规则 Generating good rules
应用全局优化 Using global optimization
从局部决策树获取规则 Obtaining rules from partial decision trees
包含例外的规则 Rules with exception
6.3 扩展线性模型 Extending linear models
最大边缘超平面 The maximum margin hyperplane
非线性类别边界 Nonlinear class bou
上一篇: 第九届中国机器学习会议
下一篇: 300多名智能机器人行业专家深圳论道