Sparsemax封闭形式解及其损失函数的推导
文章插图
本文目标是三个方面 。第一部分讨论了sparsemax背后的动机及其与softmax的关系,首次介绍了该激活函数的原始研究论文摘要,以及使用sparsemax的优点概述 。第二部分和第三部分专门讨论数学推导,具体地找到闭合形式的解以及适当的损失函数 。
1.Sparsemax概述Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax,提出了一种替代众所周知的softmax激活函数的新方法 。
虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择,但在许多任务中,我们希望获得一个更稀疏的输出 。Martins引入了一个新的激活函数sparsemax,该函数输出多项式分布的稀疏概率,因此从分布的质量中滤除了噪声 。
这意味着sparsemax将为某些类分配恰好为0的概率,而softmax会保留这些类并为它们分配非常小的值,如10-3 。在大型分类问题中,稀疏最大值可能特别有利;例如在自然语言处理(NLP)任务中,其中softmax层正在非常大的词汇集上进行多项分布建模 。但是,实际上,将softmax函数更改为稀疏估计器并不是一件容易的事 。在保持softmax的一些基本属性的同时获得这种转换(例如,易于评估,易于微分并容易转换为凸损失函数)变得非常具有挑战性 。
机器学习中解决该问题的传统方法是使用L1惩罚,该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性 。虽然这种方法相对简单,但是L1惩罚会影响神经网络的
推荐阅读
- 数学|“数学皇帝”丘成桐从哈佛大学退休:全职加入清华大学
- Tinyid 深度解密滴滴的高性能ID生成器
- 出生证明丢了怎么补?
- 怎样做好中考数学复习
- 完全基于 Java 的开源深度学习平台,亚马逊的大佬带你上手
- 英特尔GPU架构深度解读
- 一文回顾深度学习发展史上最重要经典模型
- VMware 安装运行 deepin 虚拟机
- 适用于少量数据的深度学习结构
- Java线程池深度揭秘