想不到,那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手
参与:蛋酱
要是收藏夹里没几个独家沙雕表情包 , 当代网民都无法在朋友圈立足 。 但有一些「妙不可言」的图片 , 也许是AI生成的结果 。
一般人很难读出「meme」这个词 , 它通常译为「模因」 , 起源于1976年 , 本意为「模仿传递行为」 。
但读音和来源或许没那么重要 , 重要的是每个网上冲浪的人都见过它 , 甚至沉迷于它 。 在中文里 , 它大概被称为「网络梗图」、「沙雕图片」、「表情包」等等……
比如这个:
文章图片
还有这个:
文章图片
这个金发蓝衣的快乐男孩 , 你难道不眼熟吗?
作为机器学习研究者 , 你可能还偷偷在收藏夹里保存了这些:
文章图片
这是一张在深度学习社区流传很广的图 , 表达的是新的预训练方法如何比之前的SOTA方法更优越 。 当然 , 新SOTA方法是层出不穷的 , 这样的图片收集起来甚至能形成一个完整的系列 。
图的创建通常只有两步:选一张时兴的meme模版(即图像) , 然后配上「精妙绝伦」的说明文字 , 制造出一种别有韵味的幽默感 。
.
这种图像、文字和幽默感的奇妙组合 , 在信息传递方面极具穿透力和感染力 , 比如当你看到这张图时:
文章图片
虽然这只是一张静态图片 , 句子也不成句子 , 但你的眼前已经浮现出了七人共舞的场景 。
当代网友人人都用表情包 , 甚至还会自制 。 比如:
文章图片
然而 , 表情包除了自制 , 还可以由AI生成 。 你可能想不到 , 某个平平无奇的表情包背后竟然隐藏着「神秘力量」 。
今天 , 我们就来了解一下meme自动生成 。
meme自动生成一直是深度学习领域的课题之一 。 以往的生成方法要么是从一堆meme字幕中选择最适合的一个 , 要么是基于给定图片和模版来生成meme字幕 , 似乎有点不够「便捷」 。
近日 , 来自美国亚利桑那州立大学的研究者对meme图生成方法进行了改进提升 。 在这篇论文中 , 研究者提出了一种根据给定的输入语句来生成匹配图片的方法 。 这是一项很有挑战性但有趣的NLP任务 。
文章图片
论文地址:https://arxiv.org/abs/2004.14571v1
通过对meme图生成机制的深入了解 , 研究者决定将meme图生成与自然语言翻译结合起来 。
在自然语言翻译工作中 , 为了将输入的语句转换为目标语言 , 必须对语句的完整含义进行解码 , 分析其含义 , 然后将源语句的含义编码为目标语句 。
类似地 , 此处也可以将源语句的含义编码为图像和字幕对 , 使之传达与源语句相同的含义或情感 , 从而将语句翻译成「梗」 。
受该方法的启发 , 研究者提出了一种端到端的编码-解码模型「memeBot」 , 可面向任意给定的语句生成meme图 。 同时在训练的过程中 , 研究者创建了首个大型meme图字幕数据集 。
文章图片
给出句子「Iamcuriouslywaitingformyfathertocooksuppertonight」 , memeBot使用meme模板选择合适的图 , 然后用字幕生成器生成恰当的字幕 , 从而生成meme表情包 。
如何用memeBot制作表情包?
「memeBot」是一种端到端的神经与概率架构 。 该模型共有两个组成部分 , 如下图所示 , 首先是使用meme模版选择模块 , 根据输入语句确定用哪张图;然后是meme字幕生成器 , 生成合适的字幕 。
文章图片
meme模版选择模块
【想不到,那些让我半夜偷偷收藏的沙雕表情包,竟是出自AI之手】基于BERT、XLNet、Roberta等trans-former架构的预训练语言表征被广泛用于自然语言理解任务 。 这些模型在针对相应任务微调之后 , 均达到了新的SOTA水平 。
该研究在meme模版选择任务上 , 使用线性神经网络对预训练语言表征模型进行了微调 。 在训练过程中 , 通过使用公
文章图片
将依据给定语句选择正确模版的概率最大化 。 其中θ_1表示meme模版选择参数 , T表示模版 , S是输入句 。
meme字幕生成
研究者借鉴了降噪编码器的方法 , 通过破坏输入字幕来训练meme字幕生成器 , 并使用词性标注器(POSTagger)来提取输入字幕的词性 。 研究者使用POS向量来对输入字幕进行遮罩 , 仅把名词短语和动词短语作为输入传递给meme字幕生成器 。
破坏数据的目的是让模型从现有的字幕中学习meme生成 , 并在推断过程中将基于给定输入语句生成meme的过程进行泛化 。
meme字幕生成器模型使用了transformer架构 , 通过对选定的meme模版和输入语句执行多头缩放点积注意力 , 来创建给定输入语句的meme嵌入 。
transformer解码器首先对预期的字幕执行maskedmulti-headattention , 然后在编码的meme嵌入和maskedmulti-headattention的输出之间执行多头缩放点积注意力(如图3所示) 。 这使得meme字幕生成器能够学习输入语句、所选meme模版和预期meme字幕之间的依赖关系 。
此外 , 该研究还使用公式
来优化transformer 。
其中θ_2表示meme字幕生成器的参数 , C表示meme字幕 , M是基于transformer编码器获得的meme嵌入 。
数据集
模型训练所用数据有两个来源 , 一个是全球最大的meme图片生成网站「imgflip」 , 另一个就是众所周知的meme图片集合地「推特」 。 为了爬取更多的数据 , 研究者开发了一款网络爬虫工具 , 尽可能多地收集meme图 。
该研究最终创建的数据集包含源自24个「经典沙雕梗」的177942个meme字幕 。 表1展示了数据样本的组成部分 , 附录A展示了训练所用的「经典源图」 , 图4为meme字幕主题的分布情况 。
文章图片
表1:meme字幕数据集中的样本示例 , 包括模版名称(Templatename)、字幕(Caption)、meme图(MemeImage)三部分 。
附录A:实验所用meme字幕数据集中的的模版和图像 。
文章图片
图4 。
此外 , 研究者收集了推特平台的推文 , 用以评估memeBot在线上社交互动中通过语句生成meme的效力 。
研究者在关键词「Coronavirus」查询结果中随机抽取6000条推文 , 从中选择了1000条非负面情绪的推文 。 目的是通过输入推文让模型生成meme图 , 并评估生成结果是否与推文内容相关 。
memeBot效果如何
该研究在训练、验证和测试阶段的数据集分别包括142341、17802和17799个样本 , 评估内容包括模版选择模块在选择兼容模版时的性能、字幕生成器的生成效力等 。
首先 , 研究者对BERT、XLNet和Roberta几种预训练语言表征模型进行了微调 , 并在meme字幕测试数据集上测试了模型的meme模版选择性能 , 结果如表2所示 。
文章图片
表2:加粗部分为最佳分数 , 精确度和F1两项指标是越高越好 , 损失则越低越好 。 研究者使用了性能表现最佳的Roberta_base模型作为meme生成pipeline中的模版选择模块 。
然后 , 在字幕生成任务中 , 研究者使用了两个变体「MT2MC」和「SMT2MC」(SMT2MC也有两个变体) , 分别代表「基于模版生成字幕」和「基于输入语句及模版生成字幕」 。 下图是字幕生成器的变体所生成的meme示例 。
文章图片
可以看出 , MT2MC根据给定的meme模版随机生成字幕 , 与输入语句无关联 , SMT2MC变体生成的meme字幕则与输入语句有语境关联 。 在SMT2MC的变体中 , 以名词短语和动词短语作为输入生成的字幕能够更好地还原输入语句的本意 。
在评估时 , 研究者使用了BLEU分数来评估生成字幕的质量 。 鉴于meme生成没有固定的指标 , 研究者还引入了一组评估人员进行「主观评价」 , 评估的维度包括图片与字幕的连贯性和相关性等等 , 分数在1-4分不等 。
文章图片
BLEU值以及人类评估得分情况 。
文章图片
相关性与连贯性分数的定性比较 。
研究者还设计了一个实验 , 来评估meme生成结果在线上社交环境中的效力:
文章图片
表5:推特数据中的人类评估分数 。 相关性和一致性指标满分为4分 , 「UserLikes」一项代表喜欢该生成结果的人数占总体的百分比 。
文章图片
图9:SMT2MC-NP+V变体生成的meme结果 。
最后 , 研究者也提到 , meme的生成效果评价因人而异 , 很难通过预定义的指标进行评估 。 接下来他们会将继续拓展这一方面的研究 , 比如将meme引入社交媒体流 , 并根据meme在人群中的传播对其进行评估 。 meme传播率和传播人群可用于强化训练 , 生成更高质量和更具创意的meme 。
推荐阅读
- “我想妈妈了”:那些“粘人”的孩子,有多可怜?
- 职场中,那些在领导面前给同事求过情的人,后来都怎么样了?
- 庆余年之中,司理理的弟弟到底是谁?那些秘密终于被说出
- 职场中的那些事儿,看看你是不是也掉进了这样的怪圈中?
- 小说改编悬疑剧《回廊亭》来袭,男主张新成冷酷帅气,女主让人意想不到
- 热血传奇,当年那些嘲笑井中月,用炼狱的玩家还在吗?
- 全民营养周 | 战疫期间,聊聊分餐那些事
- 一款超高性价比的国产车,东南A5翼舞,让我们来看看吧!
- lol:游戏里那些让人舒心的队友,让我来保护你们吧!
- 开启成长之路,战塔英雄破解版这里只有你想不到,没有你做不到的