欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

2.27聚类

程序员文章站 2022-07-14 19:35:01
...

2.27聚类

2.27聚类

2.27聚类

2.27聚类
存储
2.27聚类
tab+shift 查询函数解释
2.27聚类

2.27聚类

os.path.abspath(“相对入境名”)

转集合去重法
2.27聚类
数据groupby与统计函数并用
2.27聚类

.loc['test']['id']
.loc['test'.pd.IndexSlice['id',:]]  多重索引

聚类

框架:模型X算法X策略

1、lasso L1

数值类型研究哪个模型更合适

采用误差度量(平方和),因为误差越小越接近

而离散数据用准确率来描述

2.非离散数据准确采用 ppe作为准确率,

PPE10 >80%预测误差不超过10%记录占80%

3.回归(有监督):线性回归,岭回归,lasso回归,回归树,因变量为数值型
算法:最小二乘,梯度
4.回归模型评估:
1)误差平方和 R^2 越高越好(关系强度)一般大于0.8
2)PPE(PPE10~15) 业务上做解释
abs(误差)/真实值<0.1 就准确
5.分类器:朴素贝叶斯,逻辑回归,决策树,随机森林,GBDT,XGBOOST,stacing,knn svm 因变量为分类数据
6.分类器模型评估:
准确率,
精确率(失衡数据看),

召回率(失衡数据看),
f1,
AUC,  roc曲线下面积(0.85)

7.roc曲线
调阈值–默认阈值为0.5,
X-召回tpr,y-假阳fpr
8.聚类:无监督(数据分组) rfm

2.27聚类

2.27聚类

综合分析法:
1标准化
2优化矩阵(给权重,主成分)
3算综合得分

2.27聚类
2.27聚类
2.27聚类

2.27聚类

2.27聚类

2.27聚类

2.27聚类

聚类算法,用距离刻画样本之间的相似性,距离越近越相似,
刻画样本间的距离
2.27聚类
相似度,皮尔逊相关系数
2.27聚类

相关标签: 聚类