[天池比赛][0基础]二手车价格预测task1 & task2
[初次体验]天池0基础数据挖掘 task1&task2 check
Task1
第一次用CSDN的Markdown编辑器,慢慢习惯。
CSDN Markdown check
熟悉csdn blog的markdown输入,很简单的语法以及编辑。(除了表格)
数据挖掘资料
Gituhub Datawhale 的开源入门学习
天池的入门比赛的注册学习
Task2
入门代码的熟悉,以及正规比赛的数据、要求、以及评价指标。
Datawhale 数据挖掘入门练习
-
评价指标
-
分类评价指标
- 二分类评价指标:
accuracy,Precision,Recall,F-Score,Pr曲线,ROC-AUC - PR,ROC_AUC
-多分类评价指标
accuracy,宏平均,微平均,F-Score- 宏平均,微平均,F-Score
- 二分类评价指标:
-
回归评价指标
MAE(Mesn Absolute Error),MSE(Mean Squared Error),MAPE(Mean Absolute Percentage Error),RMSE(Root Mean Squared Error),R2(R-Square) -
MAPE(Mean Absolute Percentage Error),RMSE(Root Mean Squared Error),
-
-
EDA分析赛题
EDA不是我们所说的Electronic Design Automation电子设计自动化,而是Exploratory Data Analysis。-
目标
- 赛题的初步了解
- 分析赛题是否可行,可行度,价值大不大
- 理解任务逻辑
- 对于赛题有意义的数据,和任务相关的数据,数据之间的逻辑
- 所需指标
- 难点,关键点,针对数据的分析
- 隐藏条件(高效性,数据异常的识别处理,工序流程的差异,时间复杂度,空间复杂度,模型鲁棒性,)
-
步骤
- 载入各种数据科学以及可视化库
- 载入数据
- 数据总结
- 数据总览
偏度和峰值 - 判断数据缺失和异常值
缺失值判断里好像注意属性的类型 - 异常值难道只能一行一行去看吗
- 可以利用pandas的columns循环看所有的属性的值分布
for title in Test_data.columns: if len(Test_data[title].value_counts()) < 7: print(Test_data[title].value_counts())
- 了解预测值的分布
如果预测值分布不太明显,可以使用trick,例如集中于较小的数值,可对其进行log_e的变换 ······ - 特征分为类别特征和数字特征,并对类别特征查看unique分布
可用unique分布查看属性值分布
画图分析最直观,可参考
多变量之间的关系可视化- 数字特性分析
相关性分析使用的是协方差(相关系数) - 类型特征分析
- 数字特性分析
- 生成报告
pandas-profiling
-
-
赛题
price 二手车交易价格(预测目标 预测二手车的交易价格。总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。(脱敏:数据安全方面,通过一定的加密或者其他算法将类似于身份证或其他敏感信息转换成可使用的不敏感信息)
使用回归的方法,对其31列信息进行特征提取,然后建模预测。
上一篇: 北芪人参的功效和作用
下一篇: shell linux基本命令实例、笔记