Python数据挖掘入门与实践 中文目录
程序员文章站
2022-03-19 08:44:17
...
Robert Layton 著 ,杜春晓 译
封面 1
扉页 2
版权 3
前言 6
目录 11
第1章 开始数据挖掘之旅 15
1.1 数据挖掘简介 15
1.2 使用Python和IPython Notebook 16
1.2.1 安装Python 16
1.2.2 安装IPython 18
1.2.3 安装scikit-learn库 19
1.3 亲和性分析示例 19
1.3.1 什么是亲和性分析 19
1.3.2 商品推荐 20
1.3.3 在NumPy中加载数据集 20
1.3.4 实现简单的排序规则 22
1.3.5 排序找出最佳规则 24
1.4 分类问题的简单示例 26
1.5 什么是分类 26
1.5.1 准备数据集 27
1.5.2 实现OneR算法 28
1.5.3 测试算法 30
1.6 小结 32
第2章 用scikit-learn估计器分类 33
2.1 scikit-learn估计器 33
2.1.1 近邻算法 34
2.1.2 距离度量 34
2.1.3 加载数据集 36
2.1.4 努力实现流程标准化 38
2.1.5 运行算法 38
2.1.6 设置参数 39
2.2 流水线在预处理中的应用 41
2.2.1 预处理示例 42
2.2.2 标准预处理 42
2.2.3 组装起来 43
2.3 流水线 43
2.4 小结 44
第3章 用决策树预测获胜球队 45
3.1 加载数据集 45
3.1.1 采集数据 45
3.1.2 用pandas加载数据集 46
3.1.3 数据集清洗 47
3.1.4 提取新特征 48
3.2 决策树 49
3.2.1 决策树中的参数 50
3.2.2 使用决策树 51
3.3 NBA比赛结果预测 51
组装起来 52
3.4 随机森林 55
3.4.1 决策树的集成效果如何 56
3.4.2 随机森林算法的参数 56
3.4.3 使用随机森林算法 57
3.4.4 创建新特征 58
3.5 小结 59
第4章 用亲和性分析方法推荐电影 60
4.1 亲和性分析 60
4.1.1 亲和性分析算法 61
4.1.2 选择参数 61
4.2 电影推荐问题 62
4.2.1 获取数据集 62
4.2.2 用pandas加载数据 63
4.2.3 稀疏数据格式 63
4.3 Apriori算法的实现 64
4.3.1 Apriori算法 65
4.3.2 实现 66
4.4 抽取关联规则 68
评估 72
4.5 小结 74
第5章 用转换器抽取特征 76
5.1 特征抽取 76
5.1.1 在模型中表示事实 76
5.1.2 通用的特征创建模式 78
5.1.3 创建好的特征 80
5.2 特征选择 81
选择最佳特征 83
5.3 创建特征 85
主成分分析 87
5.4 创建自己的转换器 89
5.4.1 转换器API 90
5.4.2 实现细节 90
5.4.3 单元测试 91
5.4.4 组装起来 93
5.5 小结 93
第6章 使用朴素贝叶斯进行社会媒体挖掘 94
6.1 消歧 94
6.1.1 从社交网站下载数据 95
6.1.2 加载数据集并对其分类 97
6.1.3 Twitter数据集重建 101
6.2 文本转换器 104
6.2.1 词袋 105
6.2.2 N元语法 106
6.2.3 其他特征 107
6.3 朴素贝叶斯 107
6.3.1 贝叶斯定理 107
6.3.2 朴素贝叶斯算法 108
6.3.3 算法应用示例 109
6.4 应用 110
6.4.1 抽取特征 111
6.4.2 将字典转换为矩阵 112
6.4.3 训练朴素贝叶斯分类器 112
6.4.4 组装起来 112
6.4.5 用F1值评估 113
6.4.6 从模型中获取更多有用的特征 114
6.5 小结 116
第7章 用图挖掘找到感兴趣的人 118
7.1 加载数据集 118
7.1.1 用现有模型进行分类 120
7.1.2 获取Twitter好友信息 121
7.1.3 构建网络 124
7.1.4 创建图 126
7.1.5 创建用户相似度图 128
7.2 寻找子图 131
7.2.1 连通分支 131
7.2.2 优化参数选取准则 133
7.3 小结 137
第8章 用神经网络破解验证码 138
8.1 人工神经网络 138
神经网络简介 140
8.2 创建数据集 141
8.2.1 绘制验证码 141
8.2.2 将图像切分为单个的字母 143
8.2.3 创建训练集 144
8.2.4 根据抽取方法调整训练数据集 145
8.3 训练和分类 146
8.3.1 反向传播算法 148
8.3.2 预测单词 149
8.4 用词典提升正确率 152
8.4.1 寻找最相似的单词 152
8.4.2 组装起来 153
8.5 小结 154
第9章 作者归属问题 156
9.1 为作品找作者 156
9.1.1 相关应用和使用场景 157
9.1.2 作者归属 157
9.1.3 获取数据 158
9.2 功能词 161
9.2.1 统计功能词 162
9.2.2 用功能词进行分类 163
9.3 支持向量机 164
9.3.1 用SVM分类 165
9.3.2 内核 165
9.4 字符N元语法 166
抽取字符N元语法 166
9.5 使用安然公司数据集 167
9.5.1 获取安然数据集 167
9.5.2 创建数据集加载工具 168
9.5.3 组装起来 172
9.5.4 评估 172
9.6 小结 174
第10章 新闻语料分类 175
10.1 获取新闻文章 175
10.1.1 使用Web API获取数据 176
10.1.2 数据资源宝库reddit 178
10.1.3 获取数据 179
10.2 从任意网站抽取文本 181
10.2.1 寻找任意网站网页中的主要内容 181
10.2.2 组装起来 182
10.3 新闻语料聚类 184
10.3.1 k-means算法 185
10.3.2 评估结果 187
10.3.3 从簇中抽取主题信息 189
10.3.4 用聚类算法做转换器 189
10.4 聚类融合 190
10.4.1 证据累积 190
10.4.2 工作原理 193
10.4.3 实现 194
10.5 线上学习 195
10.5.1 线上学习简介 195
10.5.2 实现 196
10.6 小结 198
第11章 用深度学习方法为图像中的物体进行分类 199
11.1 物体分类 199
11.2 应用场景和目标 199
使用场景 202
11.3 深度神经网络 203
11.3.1 直观感受 203
11.3.2 实现 203
11.3.3 Theano简介 204
11.3.4 Lasagne简介 205
11.3.5 用nolearn实现神经网络 208
11.4 GPU优化 211
11.4.1 什么时候使用GPU进行计算 212
11.4.2 用GPU运行代码 212
11.5 环境搭建 213
11.6 应用 215
11.6.1 获取数据 215
11.6.2 创建神经网络 216
11.6.3 组装起来 218
11.7 小结 219
第12章 大数据处理 220
12.1 大数据 220
12.2 大数据应用场景和目标 221
12.3 MapReduce 222
12.3.1 直观理解 223
12.3.2 单词统计示例 224
12.3.3 Hadoop MapReduce 226
12.4 应用 226
12.4.1 获取数据 227
12.4.2 朴素贝叶斯预测 229
12.5 小结 240
----
附录 接下来的方向 241
Python最佳实践指南
https://pythonguidecn.readthedocs.io/zh/latest/
第1章——开始数据挖掘之旅 241
Scikit-learn教程 241
http://scikit-learn.org/stable/tutorial/index.html
扩展IPython Notebook 241
http://ipython.org/ipython-doc/
第2章——用scikit-learn估计器分类 242
k近邻算法的扩展 242
virtualenv 教程
http://docs.python-guide.org/en/latest/dev/virtualenvs/
更多复杂的流水线 242
比较分类器 243
第3章——用决策树预测获胜球队 243
pandas的更多内容 243
更多复杂特征 243
第4章——用亲和性分析方法推荐电影 244
新数据集 244
Eclat算法 244
第5章——用转换器抽取特征 244
增加噪音 244
Vowpal Wabbit 245
第6章——使用朴素贝叶斯进行社会媒体挖掘 245
垃圾信息监测 245
自然语言处理和词性标注 245
第7章——用图挖掘找到感兴趣的人 245
更复杂的算法 245
NetworkX 246
第8章——用神经网络破解验证码 246
好(坏?)验证码 246
深度网络 246
增强学习 246
第9章——作者归属问题 247
增加数据量 247
博客语料 247
局部N元语法 247
第10章——新闻语料分类 247
算法评价 247
近期趋势分析 248
实时聚类 248
第11章——用深度学习方法为图像中的物体进行分类 248
Keras和Pylearn2 248
Mahotas 249
第12章——大数据处理 249
Hadoop课程 249
Pydoop 249
推荐引擎 249
更多资源 250
封面 1
扉页 2
版权 3
前言 6
目录 11
第1章 开始数据挖掘之旅 15
1.1 数据挖掘简介 15
1.2 使用Python和IPython Notebook 16
1.2.1 安装Python 16
1.2.2 安装IPython 18
1.2.3 安装scikit-learn库 19
1.3 亲和性分析示例 19
1.3.1 什么是亲和性分析 19
1.3.2 商品推荐 20
1.3.3 在NumPy中加载数据集 20
1.3.4 实现简单的排序规则 22
1.3.5 排序找出最佳规则 24
1.4 分类问题的简单示例 26
1.5 什么是分类 26
1.5.1 准备数据集 27
1.5.2 实现OneR算法 28
1.5.3 测试算法 30
1.6 小结 32
第2章 用scikit-learn估计器分类 33
2.1 scikit-learn估计器 33
2.1.1 近邻算法 34
2.1.2 距离度量 34
2.1.3 加载数据集 36
2.1.4 努力实现流程标准化 38
2.1.5 运行算法 38
2.1.6 设置参数 39
2.2 流水线在预处理中的应用 41
2.2.1 预处理示例 42
2.2.2 标准预处理 42
2.2.3 组装起来 43
2.3 流水线 43
2.4 小结 44
第3章 用决策树预测获胜球队 45
3.1 加载数据集 45
3.1.1 采集数据 45
3.1.2 用pandas加载数据集 46
3.1.3 数据集清洗 47
3.1.4 提取新特征 48
3.2 决策树 49
3.2.1 决策树中的参数 50
3.2.2 使用决策树 51
3.3 NBA比赛结果预测 51
组装起来 52
3.4 随机森林 55
3.4.1 决策树的集成效果如何 56
3.4.2 随机森林算法的参数 56
3.4.3 使用随机森林算法 57
3.4.4 创建新特征 58
3.5 小结 59
第4章 用亲和性分析方法推荐电影 60
4.1 亲和性分析 60
4.1.1 亲和性分析算法 61
4.1.2 选择参数 61
4.2 电影推荐问题 62
4.2.1 获取数据集 62
4.2.2 用pandas加载数据 63
4.2.3 稀疏数据格式 63
4.3 Apriori算法的实现 64
4.3.1 Apriori算法 65
4.3.2 实现 66
4.4 抽取关联规则 68
评估 72
4.5 小结 74
第5章 用转换器抽取特征 76
5.1 特征抽取 76
5.1.1 在模型中表示事实 76
5.1.2 通用的特征创建模式 78
5.1.3 创建好的特征 80
5.2 特征选择 81
选择最佳特征 83
5.3 创建特征 85
主成分分析 87
5.4 创建自己的转换器 89
5.4.1 转换器API 90
5.4.2 实现细节 90
5.4.3 单元测试 91
5.4.4 组装起来 93
5.5 小结 93
第6章 使用朴素贝叶斯进行社会媒体挖掘 94
6.1 消歧 94
6.1.1 从社交网站下载数据 95
6.1.2 加载数据集并对其分类 97
6.1.3 Twitter数据集重建 101
6.2 文本转换器 104
6.2.1 词袋 105
6.2.2 N元语法 106
6.2.3 其他特征 107
6.3 朴素贝叶斯 107
6.3.1 贝叶斯定理 107
6.3.2 朴素贝叶斯算法 108
6.3.3 算法应用示例 109
6.4 应用 110
6.4.1 抽取特征 111
6.4.2 将字典转换为矩阵 112
6.4.3 训练朴素贝叶斯分类器 112
6.4.4 组装起来 112
6.4.5 用F1值评估 113
6.4.6 从模型中获取更多有用的特征 114
6.5 小结 116
第7章 用图挖掘找到感兴趣的人 118
7.1 加载数据集 118
7.1.1 用现有模型进行分类 120
7.1.2 获取Twitter好友信息 121
7.1.3 构建网络 124
7.1.4 创建图 126
7.1.5 创建用户相似度图 128
7.2 寻找子图 131
7.2.1 连通分支 131
7.2.2 优化参数选取准则 133
7.3 小结 137
第8章 用神经网络破解验证码 138
8.1 人工神经网络 138
神经网络简介 140
8.2 创建数据集 141
8.2.1 绘制验证码 141
8.2.2 将图像切分为单个的字母 143
8.2.3 创建训练集 144
8.2.4 根据抽取方法调整训练数据集 145
8.3 训练和分类 146
8.3.1 反向传播算法 148
8.3.2 预测单词 149
8.4 用词典提升正确率 152
8.4.1 寻找最相似的单词 152
8.4.2 组装起来 153
8.5 小结 154
第9章 作者归属问题 156
9.1 为作品找作者 156
9.1.1 相关应用和使用场景 157
9.1.2 作者归属 157
9.1.3 获取数据 158
9.2 功能词 161
9.2.1 统计功能词 162
9.2.2 用功能词进行分类 163
9.3 支持向量机 164
9.3.1 用SVM分类 165
9.3.2 内核 165
9.4 字符N元语法 166
抽取字符N元语法 166
9.5 使用安然公司数据集 167
9.5.1 获取安然数据集 167
9.5.2 创建数据集加载工具 168
9.5.3 组装起来 172
9.5.4 评估 172
9.6 小结 174
第10章 新闻语料分类 175
10.1 获取新闻文章 175
10.1.1 使用Web API获取数据 176
10.1.2 数据资源宝库reddit 178
10.1.3 获取数据 179
10.2 从任意网站抽取文本 181
10.2.1 寻找任意网站网页中的主要内容 181
10.2.2 组装起来 182
10.3 新闻语料聚类 184
10.3.1 k-means算法 185
10.3.2 评估结果 187
10.3.3 从簇中抽取主题信息 189
10.3.4 用聚类算法做转换器 189
10.4 聚类融合 190
10.4.1 证据累积 190
10.4.2 工作原理 193
10.4.3 实现 194
10.5 线上学习 195
10.5.1 线上学习简介 195
10.5.2 实现 196
10.6 小结 198
第11章 用深度学习方法为图像中的物体进行分类 199
11.1 物体分类 199
11.2 应用场景和目标 199
使用场景 202
11.3 深度神经网络 203
11.3.1 直观感受 203
11.3.2 实现 203
11.3.3 Theano简介 204
11.3.4 Lasagne简介 205
11.3.5 用nolearn实现神经网络 208
11.4 GPU优化 211
11.4.1 什么时候使用GPU进行计算 212
11.4.2 用GPU运行代码 212
11.5 环境搭建 213
11.6 应用 215
11.6.1 获取数据 215
11.6.2 创建神经网络 216
11.6.3 组装起来 218
11.7 小结 219
第12章 大数据处理 220
12.1 大数据 220
12.2 大数据应用场景和目标 221
12.3 MapReduce 222
12.3.1 直观理解 223
12.3.2 单词统计示例 224
12.3.3 Hadoop MapReduce 226
12.4 应用 226
12.4.1 获取数据 227
12.4.2 朴素贝叶斯预测 229
12.5 小结 240
----
附录 接下来的方向 241
Python最佳实践指南
https://pythonguidecn.readthedocs.io/zh/latest/
第1章——开始数据挖掘之旅 241
Scikit-learn教程 241
http://scikit-learn.org/stable/tutorial/index.html
扩展IPython Notebook 241
http://ipython.org/ipython-doc/
第2章——用scikit-learn估计器分类 242
k近邻算法的扩展 242
virtualenv 教程
http://docs.python-guide.org/en/latest/dev/virtualenvs/
更多复杂的流水线 242
比较分类器 243
第3章——用决策树预测获胜球队 243
pandas的更多内容 243
更多复杂特征 243
第4章——用亲和性分析方法推荐电影 244
新数据集 244
Eclat算法 244
第5章——用转换器抽取特征 244
增加噪音 244
Vowpal Wabbit 245
第6章——使用朴素贝叶斯进行社会媒体挖掘 245
垃圾信息监测 245
自然语言处理和词性标注 245
第7章——用图挖掘找到感兴趣的人 245
更复杂的算法 245
NetworkX 246
第8章——用神经网络破解验证码 246
好(坏?)验证码 246
深度网络 246
增强学习 246
第9章——作者归属问题 247
增加数据量 247
博客语料 247
局部N元语法 247
第10章——新闻语料分类 247
算法评价 247
近期趋势分析 248
实时聚类 248
第11章——用深度学习方法为图像中的物体进行分类 248
Keras和Pylearn2 248
Mahotas 249
第12章——大数据处理 249
Hadoop课程 249
Pydoop 249
推荐引擎 249
更多资源 250