集成学习 也称为 元算法
以达到减小方差(bagging)、偏差(boosting)或改进预测(stacking)的效果。
由来
集成学习是一种机器学习框架,其主要思想就是将多个基础模型组合起来,提高整体模型的泛化能力。集成学习的思想背后有比较成熟的数学理论作支撑,也即Valiant和Kearns提出的PAC (Probably approximately correct) 学习框架下的强可学习和弱可学习理论。该理论指出:在PAC 的学习框架中,一个概念如果存在一个多项式的学习方法能够学习它,并且如果预测正确率很高,那么就称这个概念是强可学习的;如果正确率仅比随机猜测略好,那么就称这个概念是弱可学习的。随后,Schapire证明了强可学习和若可学习是等价的,也就是说弱学习模型是可以通过组合提升为强学习模型的,由此便形成了后来的集成学习的思想。
分类
boosting
- Adaboosting
- GBDT
bagging 自举汇聚法
是从原始数据集中选择S次后得到S个新数据集的一种技术。
- Random Forest
stacking