数学证明深度学习激活函数从Softmax到Sparsemax _深度学习

Sparsemax封闭形式解及其损失函数的推导

文章插图

本文目标是三个方面。第一部分讨论了sparsemax背后的动机及其与softmax的关系，首次介绍了该激活函数的原始研究论文摘要，以及使用sparsemax的优点概述。第二部分和第三部分专门讨论数学推导，具体地找到闭合形式的解以及适当的损失函数。
1.Sparsemax概述Martins等人通过论文《From Softmax to Sparsemax: A Sparse Model of Attention and Multi-Label Classification》引入Sparsemax，提出了一种替代众所周知的softmax激活函数的新方法。
虽然softmax是输出在K个概率上归一化的概率分布的多类分类的适当选择，但在许多任务中，我们希望获得一个更稀疏的输出。Martins引入了一个新的激活函数sparsemax，该函数输出多项式分布的稀疏概率，因此从分布的质量中滤除了噪声。

这意味着sparsemax将为某些类分配恰好为0的概率，而softmax会保留这些类并为它们分配非常小的值，如10-3 。在大型分类问题中，稀疏最大值可能特别有利；例如在自然语言处理（NLP）任务中，其中softmax层正在非常大的词汇集上进行多项分布建模。

但是，实际上，将softmax函数更改为稀疏估计器并不是一件容易的事。在保持softmax的一些基本属性的同时获得这种转换（例如，易于评估，易于微分并容易转换为凸损失函数）变得非常具有挑战性。

机器学习中解决该问题的传统方法是使用L1惩罚，该惩罚在神经网络中的输入变量和/或深层方面允许一定程度的稀疏性。虽然这种方法相对简单，但是L1惩罚会影响神经网络的

推荐阅读

最高可享12期免息海信阅读手机A5京东聚惠来袭

脚气怎么治疗，推荐五个有效的方法

瘦子增肌健身教练使用方法

洋哥爱生活|紫荆花开，红鸾再现，旧爱拉扯，情有余温，余生共相随，15天后

属马@未来三个月，4属相迎来好运，大富大贵，家庭幸福美满，吉祥安康

雪花秀适合什么年龄段的人使用？

录屏器下载在什么地方？好用的录屏器软件分享

大家吃完火锅一般喝啥来降火中国好凉茶吗

中国设计中心|特斯拉中国设计中心正在招聘或推中国风电动车

香蕉每次可以吃多少根

出手|比九灵元圣还厉害的妖怪，他一出手三界就会动乱

搞笑闽吴|说出一句流传千年的话，却死的不明不白挺遗憾，此人射术堪比黄忠

烹饪|晒晒我家一周的午餐，简单好吃不浪费，网友：一看就是北方人餐桌

|还能盼来“吃猪自由”吗？，中国冻猪肉储备恐耗尽

石竹的摆放技巧石竹怎么盆栽

小了白了兔|凭此拿到近两万奖学金, 邻近毕业却后悔不已!，我在大学干团支书,

李宇春|女人味穿搭都可以跟李宇春学了！穿短裙配高筒靴，撩人有范儿极了

恒大|恒大深夜发声：成立24年共借款20523笔，从未有利息晚付、本金逾期归还

【生肖小哥哥6514252305】不露锋芒，装傻能力一流，不容小觑，这几个星座“外傻内精”

鸡胸肉|自用抑菌液测评分享！不愧是宝藏国货，短短45天新甲蹭蹭冒！

数学|“数学皇帝”丘成桐从哈佛大学退休：全职加入清华大学

Tinyid 深度解密滴滴的高性能ID生成器

出生证明丢了怎么补？

怎样做好中考数学复习

完全基于 Java 的开源深度学习平台，亚马逊的大佬带你上手

英特尔GPU架构深度解读

一文回顾深度学习发展史上最重要经典模型

VMware 安装运行 deepin 虚拟机

适用于少量数据的深度学习结构

Java线程池深度揭秘