##谷歌大脑重磅研究：快速可微分排序算法，速度快出一个数量级

鱼羊十三发自凹非寺量子位报道 | 公众号 QbitAI
快排堆排冒泡排。排序，在计算机中是再常见不过的算法。
在机器学习中，排序也经常用于统计数据、信息检索等领域。
那么问题来了，排序算法在函数角度上是分段线性的，也就是说，在几个分段的“节点”处是不可微的。这样，就给反向传播造成了困难。
现在，谷歌大脑针对这一问题，提出了一种快速可微分排序算法，并且，时间复杂度达到了O(nlogn) ，空间复杂度达为O(n) 。
速度比现有方法快出一个数量级！

文章图片

文章图片

代码的PyTorch、TensorFlow和JAX版本即将开源。快速可微分排序算法
现代深度学习架构通常是通过组合参数化功能块来构建，并使用梯度反向传播进行端到端的训练。
这也就激发了像LeCun提出的可微分编程 (differentiable programming)的概念。
虽然在经验上取得了较大的成功，但是许多操作仍旧存在不可微分的问题，这就限制了可以计算梯度的体系结构集。
诸如此类的操作就包括排序 (sorting)和排名 (ranking) 。
从函数角度来看都是分段线性函数，排序的问题在于，它的向量包含许多不可微分的“节点” ，而排名的秩要比排序还要麻烦。
首先将排序和排名操作转换为在排列多面体(permutahedron)上的线性过程，如下图所示。

文章图片

文章图片

△排列多面体说明
在这一过程后，可以发现对于r(θ) ，若是θ出现微小“扰动” ，就会导致线性程序跳转到另外一个排序，使得r(θ)不连续。
也就意味着导数要么为null ，要么就是“未定义” ，这就阻碍了梯度反向传播。
为了解决上述的问题，就需要对排序和排名运算符，进行有效可计算的近似设计。
谷歌大脑团队提出的方法，就是通过在线性规划公式中引入强凸正则化来实现这一目标。
这就让它们转换成高效可计算的投影算子(projection operator) ，可微分，且服从于形式分析(formal analysis) 。
在投影到排列多面体之后，可以根据这些投影来定义软排序(soft sorting)和软排名(soft ranking)操作符。

文章图片

文章图片

△软排序和软排名操作符
在此基础上，要想完成快速计算和微分，一个关键步骤就是将投影简化为保序优化 (isotonic optimization) 。
【##谷歌大脑重磅研究：快速可微分排序算法，速度快出一个数量级】
文章图片

文章图片

接下来是将保序优化进行微分，此处采用的是雅可比矩阵(Jacobian) ，因为它简单的块级结构，使得导数很容易分析。

文章图片

文章图片

而后，结合命题3和引理2 ，可以描述投影到排列多面体上的雅可比矩阵。
需要强调的是，与保序优化的雅可比矩阵不同，投影的雅可比矩阵不是块对角的，因为我们需要对它的行和列进行转置。
最终，可以用O(n)时间和空间中的软算子雅可比矩阵相乘。实验结果

##谷歌大脑重磅研究：快速可微分排序算法，速度快出一个数量级

推荐阅读

车314汽车网|开什么车去阿拉善英雄会撒欢？看看北京车展上这几款车型

请脱下你的“阔腿裤”，太土！今年流行的是“酒杯裤”，时髦显瘦

荣耀30s参数处理器,荣耀30s参数

季后赛：季后赛30+5+5有多难？伦纳德6次，库里27次，第一位达到了84次

耿彪到底哪家的网速好？，移动、联通和电信

「虎扑足球」所以我相信等联赛恢复后曼联肯定会更好，默森：因为B费

直播吧|希望他继续在这里很多年，皇马高层：拉莫斯是俱乐部历史最佳之一

『小逗谈星』处女座的爱情再难，也不会选择将就，完美主义，无处不在，原创

安德罗妮|炉石一哥神级临场反应，充满娱乐效果，各种套路把对手玩晕

家人遇害|家人遇害家属案发前曾报警目前案件什么情况？

文字上的青年▲都是一种恩赐，所有过往

新安|女子生产后纱布被留体内两周多：卧立难安异味严重

灶王爷供品摆放什么灶王爷供品摆放什么最好

老树茶品质的些探索,南糯山老树茶有什么特点

刘亦菲|乡野村妇刘亦菲，贼眉鼠眼严屹宽，原来睁眼说瞎话才最考验演技

乔纳森·摩尔|美国现奇观：晴朗天空突然劈下一道闪电，大树被击中好似瞬间着火

#张艺凡#张艺凡一哭，才明白《创造营2020》问题出在教练团

佳明|佳明官方确认遭网络攻击：系统正积极恢复中用户数据未丢失或被盗用

papi酱|自2016年出道至今，“初代网红”papi酱已走过6年

75后两夫妻的婚前同居生活：110平装北欧风，全屋装满幸福感