本章讨论新一类的经典算法:集成学习

集成学习的定义


集成学习(ensemble learning)指的是将多个学习器进行有效地结合,使得最终的泛化性能优于其中的任何一个学习器。

集成学习的基本结构为两方面:先分开学习出一组个体学习器,再使用某种策略将它们结合在一起。集成模型如下图所示:

68747470733a2f2f692e6c6f6c692e6e65742f323031382f31302f31382f356263383464306331353638332e706e67.png

同质集成&异质集成:若个体学习器都属于同一类别则为同质,反之为异质

同质集成: 个体学习器称为“基学习器”(base learner),对应的学习算法为“基学习算法”(base learning algorithm)。

异质集成: 个体学习器称为“组件学习器”(component learner)或直称为“个体学习器”。

对于集成学习,单个学习单元的准确性越高,多个学习单元差异度越高,学习效果越好。但是两者很难兼得,不同集成学习种类的产生原因之一就是为了寻找”好而不同“的模型。

集成学习方法


AdaBoost