Python数据分析与挖掘实战学习笔记
本次学习笔记重点介绍数据分析中的挖掘建模:
经过数据探索与数据预处理,得到了可以直接建模的数据,根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型。
1.分类与预测
分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。
1.1实现过程
(1)分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到先定义的类别。
分类模型建立也在已有标记的数据集上,模型在已有样本上的准确率可以方便的计算,属于有监督的学习。
(2)预测是指建立两种及以上变量间相互依赖的函数模型,然后进行预测或者控制。
(3)实现过程
分类第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则,第二部是分类步,先用一直的测试样本集评估分类规则的准确率,进行预测。
而预测第一步通过训练集建立起预测属性的函数模型,第二部在模型通过检验后进行预测或控制。
1.2常见的分类与预测算法
①回归分析:回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常见的统计学方法包括线性非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘法回归等。
②决策树:采用自顶向下的递归方法,在内部节点进行属性值的比较,并根据不同的属性值,从该节点向下分支,最终得到的叶节点是学习划分的类。
③人工神经网络:人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入域输出变量之间关系的模型。
④贝叶斯网络:贝叶斯网络又称信度网络,是Byes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。
⑤支持向量机:支持向量机是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。
1.3回归分析
(1)回归分析研究范围
(2)回归分析常用模型
注:线性回归模型通常是相对简单的回归模型,但是因变量和自变量之间会呈现某种曲线关系,需要建立非线性回归模型。、
①Logistic分析介绍
logistic函数:logistic回归模型中的因变量的只有0和1两种,取得事件比后取对数,得出函数
②建模步骤:首先根据分析目标设置指标变量,然后收集数据,对特征进行筛选;列出回归方程,估计出模型中的回归系数;进行模型检验,有正确率,混淆矩阵,ROC曲线,KS值;模型应用,输入自变量的取值,就可以得到预测变量的值,或者根据预测变量的值控制自变量的取值、
实例如下:根据某银行在降低贷款拖欠率的数据进行逻辑回归建模、
利用scikit-learn对数据进行逻辑回归分析,首先进行特征筛选,比如有简单的通过F检验值来给出各个特征的F值和P值,选择F值大的或P值小的,其次有地柜特征消除和稳定性选择等,这里使用了稳定性选择方法中的随机逻辑回归进行,首先特征筛选,然后利用筛选后的特征建立逻辑回归模型,输出平均正确率。
推荐阅读