评估|自媒体文章质量如何AI知道,这是微信的自动评估算法( 二 )
对于布局建模 , 研究者考虑了人们在终端上阅读自媒体文章时从上到下滑动浏览的顺序阅读习惯 , 将文章划分为内容块序列 , 显式地学习文章图文标题等要素的排版布局 , 并同时捕捉整体的页面布局和局部的排版模式 。
写作特征子网络考虑到了多模态元素特征 , 并且能够通过深层次的特征交互关系的学习进行不同特征子空间的特征选择和特征融合 , 实现高阶非线性的特征融合 。
文本语义子网络从不同语义层次深入捕获篇章级长文本内容中的语义和内聚关系 , 深入学习复杂的语义空间中词间和句间的依赖以及文章整体的写作逻辑 。 在融合层 , 每个子网络都经过一个全连接层以调整各神经元在输出向量中的权重 , 级联后经过输出层预测得到质量类别 。
文章图片
图 2:本文提出的自媒体在线文章质量评估的 CoQAN 网络架构
布局组织子网络
为了显式学习外观布局的组织排列 , 作者首先通过页面解析将文章划分为一序列的内容块 , 内容块可以是标题、段落、图片或视频 , 如图 3 所示 。
之后 , 为每个内容块提取页面布局相关特征 , 例如类型(文本 / 图片 / 视频)、在文章中的位置、内容块自身高度、距页面顶部的距离等 。 将这些特征值进行聚合构成每个内容块的排版特征向量 , 其可以表达多个重要的布局特征 。
文章图片
图 3 :布局组织子网络中内容块提取和输入特征向量的构建
在内容块排版特征向量序列上应用 GRU 网络来建模内容块之间的序列依赖并捕获文章的全局排列模式 。 同时 , 作者在输入排版向量上应用了一维卷积神经网络以学习关键的局部布局 , 设定多个尺寸的卷积核来捕获不同比例的布局模式 。两个网络进行级联产生该子网络的输出向量 。
写作特征子网络
写作特征子网络可以捕获在线文章的编辑风格 。 作者提取和计算了包括标题、正文、图片和视频、篇章组织等方面的特征 。 例如 , 标题特征包括标题长度、关键字数目等;正文特征包括文章类别、文本长度、n-gram、词性标签、非重复字符和非重复单词比例等;图片和视频特征包括图片数目、动图数目、视频数目、OCR 文字的最大数目等 , 篇章组织特征包括段落数目、作为版块标识的模板图片数目、图片数与段落数的比例等 。
为了允许不同类别特征和数值特征之间的交互 , 写作特征子网络首先通过嵌入层将所有特征投影到相同的特征空间中 , 旨在在嵌入空间中对高阶组合特征进行建模 。 在本文中 , 作者通过应用多头自注意力层同时在多个特征子空间中学习不同特征之间的相互依赖关系 , 并进行特征空间的融合 。 多头使得一个特征域可以包含在不同组合特征中 。
作者在网络中添加了残差连接以保留之前学习到的更低阶的组合特征 , 包括原始的单特征 。 网络堆叠多层多头自注意力层 , 从而可以同时建模多阶组合特征 , 实现不同空间的深度特征融合 。
文本语义子网络
作者改进 BERT , 设计 hi-Bert 作为文本语义子网络 。 依靠强大的预训练技术 , BERT 具有很强的建模上下文关系的能力 。 由于 BERT 中的自注意力机制的时间复杂度为 O(n2) , BERT 目前仅用于处理句子级文本 , 并不适合用于文档级长文本输入 。 考虑到文档固有的层次结构 , 即单词构成句子、句子构成文档 , 作者将 BERT 改进为层次结构称为 hi-BERT , 其包含两个层级的编码器依次对文档进行编码 , 分别应用于句子级别和文档级别 。
由于标题是对文章的高层概述 , 这里将标题也作为输入句子 。 在句子级别 , 网络以迁移学习的方式使用预训练的 BERT 。 在文档级别 , 作者采用了文档级双向 Transformer 层学习句子之间的深层依赖关系得到最终的文章语义向量 。 hi-BERT 可以深入学习单词和句子之间的交互关系 , 并在面对不同的写作风格时可以学习到鲁棒的文章语义表示 。
实验结果
由于尚无公开数据集可用于自媒体在线文章质量评估任务 , 作者从微信公众号平台上收集处理在线文章数据 , 构建了一个自媒体在线文章质量分类数据集 。 该数据集包含 38,248 篇在线文章 , 涵盖了 44 种文章类别 , 涵盖新闻 , 金融 , 技术 , 民生等 。 实验在该数据集上进行评估 。
对比实验结果显示 , 所提方法 CoQAN 在各项指标上均显著达到最佳 。 实验中 , 基线模型与本文所提模型使用相同的特征 , 因此模型的优越性能受益于作者提出的联合网络表示学习架构 , 可以完备性地学习到更多有价值的信息 。
文章图片
消融实验结果证明了每个子网络的架构以及联合学习的有效性 。 去除文本语义子网络时 , 网络性能下降最大 , 这说明建模好复杂的写作知识是非常必要的 。 另外 , 文本语义子网络的性能超过了仅对文本输入建模的所有基线模型 , 并且写作特征子网络的性能超过了所有基于特征的基线模型 , 对文章布局的建模可以有效提升文章质量评估的性能 。 从实验结果来看 , 任何两个子网络联合后的性能都优于单一子网络 , 并且联合了三个子网络的整体网络 CoQAN 是最优的 , 这证明每个子网络对于自媒体在线文章质量评估都发挥了重要作用 。
推荐阅读
- |《我的女友是机器人》首曝花絮,辛芷蕾包贝尔搞怪
- 综艺节目|艺人新媒体指数综艺排名,四位明星能进前十,这节目居功至伟!
- 【地评线】安全开学,精细化防控
- 【地评线】京彩好评:改革不停顿开放不止步是最好的纪念
- 【地评线】安全开学,精细化防控|【地评线】安全开学,精细化防控
- 外交部回应安倍晋三宣布辞职:祝愿他早日康复
- 外交部|外交部回应安倍晋三宣布辞职:祝愿他早日康复
- 意大利|意大利:为开学做准备
- 亿吨级油田陆梁油田累产原油突破3000万吨
- 【行走自贸区】一面墙、一个窗口、一张空域图,为何让媒体采访团纷纷驻足?