数学证明深度学习激活函数从Softmax到Sparsemax

Sparsemax封闭形式解及其损失函数的推导

数学证明深度学习激活函数从Softmax到Sparsemax

文章插图
 
本文目标是三个方面 。第一部分讨论了sparsemax背后的动机及其与softmax的关系,首次介绍了该激活函数的原始研究论文摘要,以及使用sparsemax的优点概述 。第二部分和第三部分专门讨论数学推导,具体地找到闭合形式的解以及适当的损失函数 。
1.Sparsemax概述Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一种替代众所周知的softmax激活函数的新方法 。
虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择,但在许多任务中,我们希望获得一个更稀疏的输出 。Martins引入了一个新的激活函数sparsemax,该函数输出多项式分布的稀疏概率,因此从分布的质量中滤除了噪声 。
这意味着sparsemax将为某些类分配恰好为0的概率,而softmax会保留这些类并为它们分配非常小的值,如10-3 。在大型分类问题中,稀疏最大值可能特别有利;例如在自然语言处理(NLP)任务中,其中softmax层正在非常大的词汇集上进行多项分布建模 。
但是,实际上,将softmax函数更改为稀疏估计器并不是一件容易的事 。在保持softmax的一些基本属性的同时获得这种转换(例如,易于评估,易于微分并容易转换为凸损失函数)变得非常具有挑战性 。
机器学习中解决该问题的传统方法是使用L1惩罚,该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性 。虽然这种方法相对简单,但是L1惩罚会影响神经网络的


    推荐阅读