技术大神|Transformers是一种图神经网络( 三 )
文章图片
广义上说 , 这就是Transformers正在做的事情:它们是带有多头注意力的GNN , 作为邻居的聚合函数 。 标准的GNNs从其局部邻居节点j∈N(i)中聚合特征 , 而NLP的Transformers将整个句子S作为局部邻居 , 从每一层的每个单词j∈S中聚合特征 。
重要的是 , 各种针对特定问题的技巧——比如位置编码、因果/隐藏聚合、学习率策略和预训练——对Transformers的成功至关重要 , 但很少在GNN社区中出现 。 同时 , 从GNN的角度来看Transformers可以让我们摆脱架构中的许多花哨的东西 。
我们可以相互学到点什么?
现在我们已经在Transformers和GNN之间建立了联系 , 让我来谈谈……
全连通图是NLP的最佳输入格式吗?
在统计NLP和ML之前 , 像NoamChomsky这样的语言学家专注于发展语言结构的正式理论 , 比如语法树/图 。 TreeLSTMs已经尝试过了 , 但是也许transformer/GNNs是更好的架构 , 可以让语言理论和统计NLP的世界更靠近?
文章图片
如何学习长期的依赖?
完全连通图的另一个问题是 , 它们让学习单词之间的长期依赖关系变得很困难 。 这仅仅是因为图中的边的数量是如何随着节点的数量以平方量级增长的 。 在一个有n个单词的句子中 , 一个Transformer/GNN将对n^2^个单词对进行计算 。 对于非常大的n , 就没办法处理了 。
NLP社区对长序列和依赖问题的看法很有趣:让注意力力机制变得稀疏或者可以自适应输入的大小 , 对每一层添加递归或压缩 , 使用局部敏感哈希来获得有效的注意力 , 都是改善Transformer的有前途的新想法 。
看到来自GNN社区的想法加入其中将是很有趣的 , 例如使用划分二部图的方式用于句子图稀疏化似乎是另一种令人兴奋的方法 。
文章图片
Transformers在学习“神经语法吗”?
有几个有趣的文章来自NLP社区 , 是有关Transformers可能正在学习的内容 。 它的基本前提是 , 对句子中的所有词进行关注 , 以确定对哪些词最感兴趣 , 从而使“Transformers”能够学习一些类似于特定任务语法的东西 。 在多头注意力中 , 不同的头也可能“看”不同的句法属性 。
用图的术语来说 , 通过在全图上使用GNN , 我们能从GNN如何在每一层执行邻居的聚合来恢复最重要的边缘(以及它们可能包含的内容)吗?对于这个观点 , 我并不那么信服 。
文章图片
为什么是多头注意力?为什么是注意力?
我更赞同多头机制的优化视图——拥有多个注意力头改进了学习并克服了错误的随机初始化 。 例如 , 这些论文表明Transformer头可以在训练被“修剪”或删除 , 而不会对性能产生显著影响 。
多头邻居聚合机制在GNNs中也被证明是有效的 , 例如 , GAT使用相同的多头注意力和MoNet使用多个高斯核聚合特征 。 虽然是为了稳定注意力机制而发明的 , 但是多头机制会成为压榨模型性能的标准操作吗?
相反 , 具有简单聚合函数(如sum或max)的GNN不需要多个聚合头进行稳定的训练 。 如果我们不需要计算句子中每个词对之间的配对兼容性 , 对Transformers来说不是很好吗?
Transformers能从完全摆脱注意力中获益吗?YannDauphin和合作者的最近工作提出了一种替代的ConvNet的架构 。 Transformers也可能最终会做一些类似的事情 。
文章图片
推荐阅读
- 「小米科技」小米11Pro宣布新技术!首发骁龙875+屏下镜头,米粉:价格有点小贵
- 金牌娱乐|月入十万左右,扣税额就高达两万,网红大神啊段晒收入
- 潮黑社|屏下指纹技术虽不再是难题,但市场却已无法挽回,LCD再获突破
- 科学技术宅六六|花了一亿的一加,为何效果比花两亿的华为好?,同样定制屏幕
- 西安发布|打破国外技术垄断,陕鼓自主研发全球最大轴流压缩机
- 「硬盘」互联网可能在三年内被IPFS技术彻底颠覆
- 小毛羊|除甲醛加盟到底靠不靠谱?为什么那么多人都入坑了?我们整理的除甲醛技术内容包括:
- ZAKER生活|揭秘显微镜下沼泽的爱恨情仇,大神探索《我的世界》隐秘的角落
- [恐龙]科学家为什么不用克隆技术让恐龙复活?恐龙复活的3个条件很难实现
- 手机技术资讯|华星光电将从下个月开始陆续向三星电子供应OLED屏幕面板