欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

集成算法之Bagging和Boosting

程序员文章站 2022-07-13 08:52:35
...

集成算法,字面意思就是将单一的算法集成到一起。在集成算法中,主要有两种方法,即Bagging和Boosting。简单理解,
Bagging算法: 就是独立地建立多个模型,各个模型之间互不干扰,然后将多个模型预测结果做平均,作为最终预测结果;
Boosting算法: 有序的、依赖的建立多个模型,后一个模型用来修正前一个模型的偏差,以整体模型的预测结果作为最终预测结果。
其实,在sklearn中,这些集成算法都已实现,我们只需简单调用sklearn中的相关模块,并进行调参就可完成数据建模,以Bagging模型为例:

sklarn.ensemble.BaggingClassifier(base_estimator=None,n_estimators=10,max_samples=1.0,max_features=1.0,
bootstrap=True,bootstrap_features=False,oob_score=False,warm_start=False,n_jobs=1,random_state=None,verbose=0)
"""
其中:
base_estimator:基础分类器,即我们选择哪种基础分类器进行bagging;
n_estimators:基础分类器个数,即我们要建立多少个基础分类器记性装袋,默认值为10;
max_samples:样本采集比例,每次建立基础模型,采集多大比例样本,默认值为全部采集;
max_features:特征采集比例,同上;
bootstrap:是否进行又放回抽样;
oob_score:是否使用未抽样数据进行验证,oob:out of bag(袋外数据,需要设置bootstrap=True)
"""
随机森林

随机森林模型是一种典型的Bagging模型算法。随机森林模型使用CART决策树作为弱分类器,随机选择节点上的一部分特征,这个数量为n_sub,然后选择一个最优特征来作为决策树的分裂点。n_sub是我们需要调整的一个主要的参数。
在建立单个模型的时候,随机森林算法和CART决策树一样,具体流程见上篇博客:决策树模型.

Adaboost

Boosting,也称为增强学习或提升法,是一种重要的集成学习技术,能够将预测精度仅比随机猜度略高的弱学习器增强为预测精度高的强学习器,这在直接构造强学习器非常困难的情况下,为学习算法的设计提供了一种有效的新思路和新方法。作为一种元算法框架,Boosting几乎可以应用于所有目前流行的机器学习算法以进一步加强原算法的预测精度,应用十分广泛,产生了极大的影响。而AdaBoost正是其中最成功的代表,被评为数据挖掘十大算法之一。
对adaBoost算法的研究以及应用大多集中于分类问题,同时也出现了一些在回归问题上的应用。就其应用adaBoost系列主要解决了: 两类问题、多类单标签问题、多类多标签问题、大类单标签问题、回归问题。它用全部的训练样本进行学习。

adaboost算法流程:

1.输入一个训练集:S=((x1,y1),(x2,y2),(x3,y3),......,(xm,ym))S=((x_1,y_1),(x_2,y_2),(x_3,y_3),......,(x_m,y_m))
2.建立T个模型;
3.设置个样本初始权重: D(1)(i)=1mD^{(1)}(i)=\frac{1}{m}
4.对T个模型进行迭代:
(1):对于模型ftf_t使用权重D(t)D^{(t)}
(2):第t个模型的分类误差:εt=i:ft(xi)yiD(t)(i)\varepsilon_t=\sum_{i:f_t(x_i)\neq y_i}D^{(t)}(i)
(3):设at=12ln1εtεta_t=\frac{1}{2}ln\frac{1-\varepsilon_t}{\varepsilon_t}
(4):更新权重:iϵ{1,2,3...m},D(t+1)(i)=D(t)(i)eatyift(xi)Z(t)\forall_i\epsilon \begin{Bmatrix}1,2,3...m\end{Bmatrix},D^{(t+1)}(i)=\frac{D^{(t)}(i)e^{-a_ty_if_t(x_i)}}{Z^{(t)}}

其中:Z(t)=i=1mD(t)(i)eatyift(xi)Z^{(t)}=\sum_{i=1}^{m}D^{(t)}(i)e^{-a_ty_if_t(x_i)}

5.输出:Voted classifier
x,F(x)=sign(t=1tatft(x))\forall x,F(x)=sign(\sum_{t=1}^{t}a_tf_t(x))

总结

以上为adaboost算法的整个流程。实际上,更新权重是对上一轮中分类错误的样本权重进行放大,而后面的分类只是针对上一轮错误分类的数据,然后不断迭代,不断修正全面的错误。在进行最终的预测时,根据分类器的错误对分类器进行赋权,最终预测结果为各个分类器预测结果的加权结果。
adaboost的缺点:串行、耗时、效率低。