遍历|词嵌入的经典方法，六篇论文遍历Word2vec的另类应用( 三 ) 论文|遍历|经典|

这个方法的效果如表 4 所示，在普通词上，效果跟 word2vec 差不多，但是在拟声词上，sound-word2vec 明显表现就要好很多了。作者还在一些基于文本的拟声词识别任务中进行了实验，效果比普通的 baseline 模型都要好很多（具体细节可以去看一下原论文）。

文章图片
表 4：相似词示例。表源：[7]
3、探索新空间
论文链接：https://link.springer.com/article/10.1007/s00521-018-3923-1
Google 在去年利用语言模型将蛋白质序列转换成嵌入，从而实现了很多相关任务的飞跃，这个我曾经写过一篇文章来专门介绍，这里就不多做赘述，今天主要介绍这个方法是如何应用于音乐上，从而产生一个新的基于音乐的嵌入空间，新的嵌入空间乐理知识进行了表征——音乐 + word2vec [6]。
因为这篇论文包含了比较专业的乐理知识，而对应的机器学习方法就相对比较传统，就是一个 skip-gram 模型加上对乐谱进行编码。但是论文中对乐谱各项乐理知识在乐谱嵌入空间的表征情况进行了详细分析，表明了 skip-gram 很好地从乐谱中学习到了乐理知识。
如果音片长于一拍，我们可能会失去音调和和弦变化上的细微差别。相反，如果切片短于一个节拍，则可能有太多重复的切片(其中切片之间的内容是相同的)。寻找切片的最佳持续时间也很重要，但是这篇文章并没有涉及，相信一个更好的编码方式会让这个研究的效果更好。
因为这篇文章的价值不在于用了什么机器学习方法，只是用了 skip-gram，故而不再对训练过程进行讲述啦。当然，这篇论文除了证明了 skip-gram 可以在音乐领域很好的获取 chord 和 harmonic 特征，还提供了很多音乐领域可以用的数据集（section 4），如果有兴趣在这个领域做点什么，这些数据集还是很有用的。
这篇论文的结果分析过于专业，如果想看一下音乐大师对这个模型的评价，可以去看一下原始论文，总之这个模型在各个方面表现的很好，对音乐有了解的同学可以看一下原论文中是怎么分析的，或许对后续任务也有很大的帮助。
4、使用这个空间
论文链接：https://arxiv.org/pdf/1908.01211.pdf
最后，在讨论了如何改善传统词嵌入空间和如何创建新嵌入空间之后，如何使用这个空间也很重要。但是因为本文不是对 word2vec 的介绍，所以传统的 NLP 任务中 word2vec 的应用在此就不再多做介绍了，网上已经有很多实践上或是理论上的科普文。这里主要介绍词嵌入是如何在 RL 中应用的——Word2vec to behavior [8]。
这里的 a 代表声学神经细胞，一开始先输入命令，然后用这个命令的 embedding 初始化隐藏层 hi，这里初始化是使用文中 5 个命令词的 embedding 来先进行预训练以初始化 h_1-h_5，命令词为‘forward’, ‘backward’, ‘stop’, ‘cease’, ‘suspend’, and ‘halt’，其中后面四个词表达的意思一致，所有一个不会被用来做初始化，作为测试组。初始化完成后，这些虚线的连接就会被删除，然后机器人就进入仿真器开始仿真，将命令的嵌入输入给机器人，然后通过各个传感器 (s) 得到的信息进行动作。这个初始化就使得网络获取了语义信息。
经过评估后，将根据与命令配对的目标函数（例如惩罚运动的函数）对机器人的行为进行评分。然后，针对其他四个命令和目标函数，对同一策略进行四次以上的评估（B 和 C 分别对应两次），对策略进行训练，以针对所有这五个功能（D）最大化平均分数。经过训练后，最佳策略会提供一个训练时没有的第六种同义词 “cease”，并且其行为会根据“停止” 目标函数（E）进行评分。
最终的结果如下图所示，每个颜色代表一种命令，可以看到作者的方法（第一个）训练的机器人在 “停止” 这条命令上确实表现得比其他的要好。

文章图片
总结
从本文提到的这些分析性或是创新性论文来看，skip-gram 和 CBOW 能够很好地获取我们生活生很多对象的语义（音乐、声音等），而 multi-modal 是一个很好地完善现有嵌入空间的方法，在没有 label 的情况下，合理的聚类也可以提供给模型辅助标签。这个嵌入空间也不只是可以应用于 NLP 领域，还有很多其他领域可以直接套用 w2v 中生成的嵌入空间（如 RL）。
当然，未来还有很多其他可以探索的方向，比如发展比较初级的音乐领域，如何将声音中的情绪结合到传统的 w2v 模型中去等等。
总之，语言作为我们观察和描述世界的一个基本要素，语言基本覆盖了我们生活的方方面面，在某些层面也反映了客观世界的规律（比如语言学的“复合性原理”-compositionality)，遇到无法解决的学习的问题的时候，语言模型或许会给你一点点启发。
参考文献
[1] Kottur, Satwik, et al. "Visual word2vec (vis-w2v): Learning visually grounded word embeddings using abstract scenes." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
[2] Wang, Xue, et al. "Embedded Representation of Relation Words with Visual Supervision." 2019 Third IEEE International Conference on Robotic Computing (IRC). IEEE, 2019.

遍历|词嵌入的经典方法，六篇论文遍历Word2vec的另类应用( 三 )

推荐阅读

肯尼亚首都内罗毕安全吗肯尼亚首都

吉克隽逸|吉克携逸晒运动吊带4宫格，古铜色皮肤抢镜，身材依旧火辣，真酷

萝卜炖肉

山东河南河北！终于要降温了！大面积中到大雨暴雨正来袭

最新热文|哈哈哈哈又心疼又想笑! …”，“在喜欢的人面前丢脸的经历!

蒂姆·邓肯|NBA历史排名前五大前锋！邓肯榜首，狼王第二，司机第五引争议

星座趣谈E|和他们谈恋爱你肯定不会吃亏！，做事非常有责任的三大星座

『肖战』肖战单曲卖了一个亿又怎样，还是有五十多万人抵制复出！

电竞宅的那点事|《坦克世界》军旅生涯活动趣味来袭，全军出击！

不吃小青菜|男孩气的结婚，女孩后悔不已，女孩结婚要25万彩礼给弟弟买房

曹奂和曹髦?魏帝曹髦被弑杀

香港理工大学|涉及去年香港理工大学事件，香港警方今日再拘捕25人

小小苘|为什么越努力的人越遭人讨厌，《二十不惑》：姜小果告诉我们

「科学家」科学家都无法解释的3个现象，与生活息息相关，你正在经历吗？

唯一玩数码■AI加持护家安全，创维小湃智能摄像头AI云台版测评：高清摄像

骑手|饿了么将推2项新功能为外卖骑手减压：消费者拥有更多决定权

『口罩』戴口罩运动时要选择自己熟悉、动作结构比较简单的锻炼方式

青春遗失在昨天|中国使出雷霆手段，引起连锁反应，美国拒绝世界各国运回黄金

桌游|《展翅翱翔》：原作桌游底子虽好，但电子化版本仍需努力

人民日报■扩散！关于新冠病毒肺炎的9个事实，你一定要知道！