机器学习中的提升集成算法
介绍
集成技术:我们可以说它是一组弱模型机器学习模型的集合,这些模型成为一个强大的机器学习模型,这种技术被称为集成。
弱学习器或基础模型:这些是集合中使用的不同算法的机器学习基础模型,这些模型可以是逻辑回归、支持向量机、决策树、线性回归、随机森林等。
在集成技术中,我们需要对模型进行变化,使它们从多样性中成为预测者,并且不尝试给出相同的预测分析。
可以通过保持相同的基础模型并改变输入数据以进行变化。第二种方式是拥有不同的基础模型并具有相同的输入数据,以便模型可以使用不同的数据进行训练。
- 对于分类问题:预测基于所有弱学习器的多数投票。
- 对于回归问题:预测基于所有基础模型预测的平均值。
集成技术的类型:
- 投票
- Bagging:
- 随机森林
3. 提升:
- Ada-boosting
- 梯度提升
- XGBoost
4. 堆叠
Ada-boost属于提升算法的范畴。最近,由于其高性能和较少的过拟合问题,提升技术的使用已经变得非常普遍。
Adaboost的基础学习器是通过顺序最小化每个基础模型中的错误而产生的算法。
基础学习器模型的类型:
- 同质:在训练中使用相同的基础模型
- 异质:在训练中使用不同的基础模型
集成方法试图保持低偏差和低方差,以避免过拟合问题。