黑科技篮子|参数量仅为1/300,谷歌最新的NLP模型,性能媲美BERT
机器之心编辑部
在最新的博客文章中 , 谷歌公布了一个新的NLP模型 , 在文本分类任务上可以达到BERT级别的性能 , 但参数量仅为BERT的1/300 。
文章图片
在过去的十年中 , 深度神经网络从根本上变革了自然语言处理(NLP)领域的发展 , 但移动端有限的内存和处理能力对模型提出了更高的要求 。 人们希望它们可以变得更小 , 但性能不打折扣 。
去年 , 谷歌发布了一种被称为PRADO的神经架构 , 该架构当时在许多文本分类问题上都实现了SOTA性能 , 并且参数量少于200K 。 大多数模型对每个token使用固定数目的参数 , 而PRADO模型使用的网络结构只需要很少的参数即可学习与任务最相关或最有用的token 。
文章图片
论文链接:https://www.aclweb.org/anthology/D19-1506.pdf
在最新的博客文章中 , 谷歌的研究者宣布它们改进了PRADO , 并将改进后的模型称为pQRNN 。 新模型以最小的模型尺寸达到了NLP任务的新SOTA 。 pQRNN的新颖之处在于 , 它将简单的投影运算与quasi-RNN编码器相结合 , 以进行快速、并行的处理 。 该研究表明 , pQRNN模型能够在文本分类任务上实现BERT级别的性能 , 但参数量仅为原来的1/300 。
PRADO的工作原理
在一年前开发该模型时 , PRADO在文本分割上充分利用特定领域的NLP知识 , 以降低模型大小和提升模型性能 。 通常来说 , 首先通过将文本分割成与预定义通用词典中的值相对应的token , 将NLP模型的文本输入处理成适用于神经网络的形式 。 然后 , 神经网络使用可训练参数向量(包括嵌入表)来唯一识别每个文本片段 。 但是 , 文本分割的方式对模型性能、大小和延迟都有显著的影响 。
下图展示了NLP社区使用的各种文本分割方法及其相应的优缺点:
文章图片
由于文本片段的数量是影响模型性能和压缩的重要参数 , 因此引出了一个问题 , 即NLP模型是否需要能够清楚地识别每个可能的文本片段 。 为了回答这个问题 , 研究者探索了NLP任务的固有复杂性 。
只有语言建模和机器翻译等少数NLP任务需要了解文本片段之间的细微差异 , 因此可能需要唯一识别所有可能的文本片段 。 其他大多数任务仅通过了解这些文本片段的子集即可解决 。 此外 , 任务相关的文本片段子集并不一定是频率最高的部分 , 因为可能很大一部分是专用的冠词 , 如a、an和the , 而这些对很多任务来说并不重要 。
所以 , 允许网络决定给定任务的最相关片段可以实现更好的性能 。 并且 , 网络不需要唯一识别这些文本片段 , 只需要识别出文本片段的聚类即可 。 举例而言 , 情感分类器只需要了解与文本中的情感强相关的片段聚类就行了 。
文章图片
基于此 , PRADO被设计成从词(word)中学习文本片段的聚类 , 而不是wordpiece或字符 , 从而使它能够在低复杂度NLP任务中实现良好的性能 。 由于wordunit更有意义 , 而且与大多数任务最相关的词并不多 , 所以学习相关词聚类的简化子集所需要的模型参数就少了很多 。
改进PRADO
谷歌研究者在PRADO的基础上开发了一个更强的NLP模型——pQRNN 。 该模型由三个构建块组成——一个是将文本中的token转化为三元向量序列的投影算子、一个密集bottleneck层和若干QRNN编码器 。
pQRNN中投影层的实现与PRADO中所用到的一致 , 帮助模型学习相关性最强的token , 但没有一组固定的参数来定义这些token 。 它首先对文本中的token进行识别 , 然后使用一个简单的映射函数将其转换为三元特征向量 。 这将产生一个三元向量序列 , 该序列具有平衡对称分布 , 用来表示文本 。 这种表示没有直接用途 , 因为它不包含解决感兴趣任务所需的任何信息 , 而且网络无法控制这种表示 。
推荐阅读
- 七号人称说科技|华为始料未及?台积电又成了“炮灰”?新风暴说来就来
- 大众新闻|众安科技荣获“今日·保险中介榜”年度Insurtech独角兽
- 雷科技|朋友圈都在秀的“互联网勋章”到底是什么?
- 快科技|小米10至尊纪念版妙享功能升级:手机与Windows电脑合体
- 七号人称说科技|再给华为一颗糖?美国到底在打什么“算盘”?,先给华为一巴掌
- 小米科技|小米旗舰再“搅局”!144Hz+2K+百倍变焦,5纳米性能赶超A14
- 科技小乐乐|12:你想太多了,跌至4784元?全网刷屏的琼版iPhone
- 雷科技|12直降1500,海南版真有这么香?,iPhone
- 科技小乐乐|为什么国内有人已拿到iPhone12却不敢开机?
- 浪浪科技|亚马逊42%的评论为虚假评论,报告:疫情期间