黑科技篮子|参数量仅为1/300,谷歌最新的NLP模型,性能媲美BERT( 二 )


研究者将其与一个密集bottleneck层结合在一起 , 以使网络可以学习到一个与手头任务相关的逐词表示 。 bottleneck层产生的表示仍然没有考虑到词的上下文 。 因此 , 研究者利用若干双向QRNN编码器学习了一个上下文表示 。 这样可以得到一个仅从文本输入就能学到上下文表示的网络 , 并且无需任何预处理 。
黑科技篮子|参数量仅为1/300,谷歌最新的NLP模型,性能媲美BERT
文章图片
pQRNN的性能
研究者在civil_comments数据集上评估了pQRNN , 并将其与BERT模型在相同的任务中进行了比较 。 模型的大小与其参数量成正比 , 因此pQRNN比BERT小得多 。
此外 , pQRNN还进行了量化处理(quantized) , 因此模型体积进一步缩小到原来的1/4 。 公开训练的BERT在本文的任务中表现不好 , 因此拿来对比的BERT其实是在几个不同的相关多语言数据源上进行预训练得到的 , 以使其达到最好的表现 。
黑科技篮子|参数量仅为1/300,谷歌最新的NLP模型,性能媲美BERT
文章图片
在实验中 , 研究者得到了两个模型的AUC信息 。 在没有任何预训练、只在监督数据训练的情况下 , pQRNN的AUC是0.963 , 用到了130万个量化(8-bit)参数 。 在几个不同数据源进行预训练并在监督数据上进行微调之后 , BERT模型得到的AUC是0.976 , 用到了1.1亿个浮点参数 。
为了鼓励社区在谷歌研究成果的基础上做出进一步改进 , 谷歌还开源了PRADO模型 。
项目地址:https://github.com/tensorflow/models/tree/master/research/sequence_projection
【黑科技篮子|参数量仅为1/300,谷歌最新的NLP模型,性能媲美BERT】博客链接:https://ai.googleblog.com/2020/09/advancing-nlp-with-efficient-projection.html


推荐阅读