Datawhale 零基础入门数据挖掘-Task4 建模调参
奥利给,学起来,哈哈哈哈
(嗷 我的vscode无法调动 numpy 我哭了)
相关原理的学习整理:
标题线性回归:
**主要是记住其代码块 **
资料来源:
[ https://zhuanlan.zhihu.com/p/49480391 ]
最简单的公式:
f(x)= w’x+b
注: 在这里的 w x 都是两个列向量
具体的使用:(可回忆大一学过的gay论内容)
附: dot是用来进行向量相乘
import numpy as np
w_t,b = np.array([1,2,3,4,5]),1
X = np.array([[1,1,1,1,1],[1,2,5,3,4],[5,5,5,5,5]]).T
y_hat = np.dot(w,X) + b
代码来自学习笔记
损失函数
loss = (f(x)-y)^2
( 统计学的最小二乘法)
y = np.array([1.5, 3, 6])
loss = (y_hat - y)**2
最小二乘
w_t = np.dot(np.dot(y,X.T), np.linalg.inv(np.dot(X,X.T)))
下降梯度
(使得上面所说的loss板块能减小,趋向于最小值)
while True:
grad = np.dot((np.dot(w_t,X)-y), X.t)
w_t -= 0.1 * grad
if np.linalg.norm(w_t, ord = 2) < 1e-3:
break
决策树:
资料来源:https://zhuanlan.zhihu.com/p/65304798
定义:在特征空间与类空间上的条件概率分布,即给定特征条件下类的条件概率分布;也可以认为是if-then规则的集合
** 为了更易读懂,用于 数据分析 **
( 资料来源: https://blog.csdn.net/doutd_y/article/details/88652465)
代码板块的使用:
def build_tree():
for i in features:
node = {}
tree[i] = build_tree()
return tree
等我把我的软件修好我就去试试编程笔记给的测试用例子
GBDT
资料来源:link
回归树 CART模型——(GBDT的基模型)
看了一下讲解,感觉归属于 通过拆分不同的层次我们可以对我们需要推测的东西进行一个更加详细的估算, 当然涉及到了如何切分才能最优的板块
link.
这个感觉看起来比较清晰!
GBDT
原资料主要是关于函数推导的过程,有去淘了一个,有一些代码板块,对于我个人读起来比较舒服
link
XGBoost 和 LightGBM
组长发过一个b站视频,学那个就可以很饱了!!
XGBoost模型
link
LightGBM模型
link
码下推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《Python大战机器学习》 https://book.douban.com/subject/26987890/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《数据科学家访谈录》 https://book.douban.com/subject/30129410/
代码实操区域:
看了一下下面的代码板块,感觉,嗷嗷啊
新的函数使用:
reduce_mem_usage:
五折交叉验证 :
数据挖掘竞赛预测模型
代码来源:https://blog.csdn.net/o0xgw0o/article/details/99995011