集成学习

集成学习，字面意思，如果你的方法很烂但又不想花大功夫，我们可以将一堆模型糅合，得到一个较优的模型。当然，我们不能随意糅合，我们必须要有一定的规范标准，这就是集成学习。

严格地说，集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能.这对“弱学习器”(weak learner)尤为明显，因此集成学习的很多理论研究都是针对弱学习器进行的，而基学习器有时也被直接称为弱学习器.但需注意的是，虽然从理论上来说使用弱学习器集成足以获得好的性能，但在实践中出于种种考虑，例如希望使用较少的个体学习器，或是重用关于常见学习器的一些经验等，人们往往会使用比较强的学习器。

一般来说，集成学习，有bagging，boosting两类方法。个体学习器间存在强依赖关系、必须串行生成的序列化方法，以及个体学习器间不存在强依赖关系、可同时生成的并行化方法；前者的代表是Boosting,后者的代表是Bagging和 “随机森林” (Random Forest)。

bagging

其算法可以简单理解为如下：

简单来说，我们可以将所有数据集分为$ $，分别使用$ $也就是各自的算法进行训练，得到各自的输出$ $，最后根据输出更加加权平均或投票等方式，得到最终输出。

决策树+随机森林

决策树

决策树算法非常简单，这里不做赘述。简单来说，就是对于任意一个非叶子节点判别然后分为两类，其子节点[非根节点]对于继续迭代直到根节点。

决策树算法只要你想，就能够做到100%的训练集准确率。所以也很容易过拟合。

随机森林

可以将随机森林理解为提升决策树算法的泛化能力做出的改进。运用了bagging的思想在决策树上面。

我们假设划分了$ $的训练集，对于每一个训练集，使用不同的决策树进行训练可能由多个决策树$ $训练同一个训练集]，因此”随机森林”当中的”森林”来源于此。该决策树会依据某一个属性进行划分，该属性是随机选择的，因此”随机森林”当中的”随机”来源于此。

也就如图：

利用随机森林，我们得到ミク的预测算法集会更加的平滑。

boosting

注意：The classifiers are learned sequentially.

adaboosting

当你的[机器学习算法]结果不太理想时[一般来说正确率小于50%]，你可以考虑引入优化你的模型。如果模型可以表示空间，模型可以表示空间，那么我们希望最好。因为与相互独立，互不影响。

推广到一般情况，你需要依照次序构造 $ f1 $，$ f_2 $，，$ f_n $。并且要求$ f{n-1} $与$ f_n $不相关独立互补，如何构造$ f $。只要数据集内容或你对数据集定下的权值不同，就可以称之为不同的函数，即一个新的$ f$。如下图。

简单做法，我们强调$fi $的错误样本，弱化$ f{i+1} $的正确样本，即对错误样本，我们为其权值乘上一个$ d_i $，对于正确样本，我们除上一个$ d_i$。如下图。

具体做法，我们令为模型下的错误率。

故有，$\varepsilon1=\frac{\sum{i=1}^{n}u{1}^{n}\delta(f_1(x^i)!=\hat y^i)}{Z_1} $，且$ Z_1=\sum{i=1}^{n}u_{1}^{n} $，并且$ \varepsilon_1<0.5$时。

我们如何计算对于$f2 $的各个权值$ u{2}^{n}$呢？

上面提及，就用

我们强调$fi $的错误样本，弱化$ f{i+1} $的正确样本，即对错误样本，我们为其权值乘上一个$ d_i $，对于正确样本，我们除上一个$ d_i$。如下图。

即可。

我们如何计算对于$u{2}^{n} $的各个用于更新权值$ d{1}$呢？

推导过程如下：

于是即可，对于均成立。

我们将上述结果写入公式当中，有如图：

实际上我们可以使用一个数学公式来简短的表达if—else这样的情形，即的更新公式可以简化为：

$u{t+1}^{n}=u{t}^{n}*\exp(-\hat y^nft(x{}^{n})a_t) $，且$ a_t=\ln \sqrt{(1-\varepsilon_1)/\varepsilon_1}$。

即如下图：

伪代码如下：

[公式写法上会略有不同，不影响]

adaboosting相关数学证明

1.为什么引入越来越多的学习器是可行的。

如下图：

图上的图表中给出和的大小关系。

易知，

故$\sum{i=1}^{n}\delta(H(x^i)!=\hat y^i)<=$$\sum{i=1}^{n}\exp(-\hat y^ig(x^i))$

由此得到上式。

我们继续推导，有下图：

最后我们得到$Z{T+1}=N\prod{t=1}^{T}2\sqrt{\epsilon_t(1-\epsilon_t)}$。

显然对于任何，并且我们还有的约束。

我们能使越大时，错误率也就越低。[任何一个正数乘以应一个小于一的正数显然比原来的数小]

以上证明只有在各个基学习器之间相互独立才能成立。

2.西瓜书上给出 $损失函数$ 与 $指数损失函数$ 等价。

但是有更好的数学性质，因此我们多用损失函数。

推导如下[突然引入贝叶斯最优错误率有点猝不及防，看了一下相关证明，非常的数理统计（）]

可以考虑看Zhang, 2004，英语苦手这里

更加一般的boosting

实际上我们使用梯度下降套入boosting后得到的结果和adaboosting一致。李宏毅老师的ppt里有，这里不做赘述。

stacking

假设我们只有初级及次级学习器两类。stacking就是利用初级学习算法对训练集进行学习器学习得到初级学习器。然后我们使用初级学习器来生成新数据，将这些新数据整合入全集中。最后使用次级学习算法对学习，得到次级学习器。

根据我们的次级学习器，对初级学习器的输出做预测得到我们的输出。

题外话

K折交叉验证法

在简单的交叉验证过程中，我们已经把原数据划分为训练集、验证集和测试集，但由于并不是所有的数据都参与了模型训练（至少验证集没有），因此就存在数据信息利用不全的弊端；此外，不同的划分结果也会导致模型不同的训练效果。

为了确保泛化误差的稳定性，从而得到理想的模型，我们就需要利用K折验证法，其一般流程如下：

(1) 将数据集分为训练集和测试集，测试集放在一边。

(2) 将训练集分为 k 份，每次使用 k 份中的1 份作为验证集，其他全部作为训练集。

(3) 通过 k 次训练后，得到了 k 个不同的模型。

(4) 评估 k 个模型的效果，从中挑选效果最好的超参数。

(5) 使用最优的超参数，然后将 k 份数据全部作为训练集重新训练模型，得到最终所需模型，最后再到测试集上测试。

参考资料

经典机器学习系列之【集成学习】 - 知乎 (zhihu.com)

机器学习 (nju.edu.cn)

飞桨AI Studio - 人工智能学习与实训社区 (baidu.com)](https://aistudio.baidu.com/aistudio/education/preview/4181138))

机器学习笔记[5]-集成学习

快晴发布于 2023-04-11

文章访问量

集成学习

bagging

决策树+随机森林

决策树

随机森林