机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事( 二 )


机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

训练误差
机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图


机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

隐去了相对不太重要的其他项) , 这里的m是训练样本数 , T是训练的轮数 ,
机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

可以大致理解为基学习器的复杂度 。 因为AdaBoost每训练一轮就增加一个基学习器 , 所以
机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

大致相当于最终集成学习器的复杂度 。 于是 , 这个理论结果告诉我们:训练样本多些好 , 模型复杂度小些好 。
希望训练样本多 , 这容易理解 。 为什么希望模型复杂度小呢?这是由于机器学习中存在“过拟合” , 简单地说 , 如果对训练数据学得“太好了” , 反而可能会犯错误 。 例如图2 , 在学习“树叶”时 , 如果学习器错误地认为没有锯齿就不是树叶 , 这就过拟合了 。 一般认为 , 产生过拟合的重要原因之一 , 就是由于模型过于复杂 , 导致学得“过度”了、学到了本不该学的训练样本的“特性”而非样本总体的“共性” 。
机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

显然 , 夏柏尔和弗洛恩德在1997年的理论蕴义与机器学习领域的常识一致 , 因此很容易得到大家认可 。
然而 , AdaBoost在实践中却呈现出一个奇异的现象:它似乎没有发生过拟合!
如图3所示 , 在训练误差到达0之后继续训练 , 虽然模型复杂度在增大 , 但泛化误差却仍会继续下降 。
科学发现中有一个基本方法论:若有多个理论假设符合实验观察 , 则选取最简洁的 。 这就是所谓“奥卡姆剃刀(Ocama’s razor)准则” 。 这个准则在众多学科史上都发挥了重要作用 。 然而如果审视AdaBoost的行为 , 却可以发现它是如此与众不同 。
如图3中 , 训练到第10轮和第1000轮时形成的假设(集成学习器)都与“实验观察”(训练数据)一致 , 前者仅包含10个基学习器、后者包含1000个基学习器 。 显然 , 根据奥卡姆剃刀应该选取前者 , 但实际上后者却更好 。
机器之心■周志华:Boosting学习理论的探索——一个跨越30年的故事
本文插图

也就是说 , AdaBoost的行为表现不仅违背了机器学习领域的常识 , 从更广大的视角看 , 甚至违背了科学基本准则!
因此 , 弄清AdaBoost奇异现象背后的道理 , 不仅能满足我们的好奇心 , 还可能揭开机器学习中以前不知道的某种秘密 , 进而为算法设计打开一扇新门 。 “AdaBoost为何未发生过拟合?”作为Boosting最关键、最引人入胜的基础理论问题 , 吸引了诸多知名学者投入其中 。
惊蛰
夏柏尔和弗洛恩德很快意识到1997理论中的问题 。 1998年 , 他们与后来领导伯克利著名的西蒙斯计算理论研究所的彼得·巴特莱特(Peter Bartlett)和李伟上(Wee Sun Lee)合作发表了一个新的基于“间隔(margin)”的理论 。
“间隔”是机器学习中一个非常重要的概念 。 大致来说 , 如图4所示 , 假定我们用一个划分超平面把不同类别的样本分开 , 那么某个样本点与超平面的“距离”就是这个样本点相对该超平面的“间隔” 。 考虑所有样本点相对这个超平面的“最小间隔” , 就定义出了“超平面的间隔” 。 机器学习中著名的支持向量机SVM就是通过优化技术来求解出间隔最大的划分超平面 , 换一个角度看 , 就是试图使样本点相对超平面的“最小间隔”尽可能大 。


推荐阅读