评估|自媒体文章质量如何AI知道,这是微信的自动评估算法
_原题为 自媒体文章质量如何AI知道 , 这是微信的自动评估算法
机器之心专栏
作者:腾讯微信团队
自媒体时代 , 每个公众号都在思考一个问题:如何让我的文章被更多人看到?其实 , 除了运营之外 , 本章本身的质量才是最根本的 。 在这篇文章中 , 腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评估算法 , 告诉你模型眼中的好文章都是什么样的 。
文章图片
移动阅读时代涌现了许多用户生成内容模式下的自媒体平台 , 每个用户都可以作为内容生产者 , 这种开放性同时也导致了自媒体在线文章的质量参差不齐 。 自动评估自媒体在线文章质量对在线推荐、搜索和广告等应用场景都具有重要意义 , 然而当前几乎没有针对该任务的研究工作 。
不同于格式良好的传统文章(例如学术论文和 Wikipedia 文档) , 自媒体在线文章主要由用户创建 , 没有统一的格式、布局和写作规范 , 包含文本、图像和视频的多模态混合编辑 , 以及内容丰富、风格多样、语义跨度大的潜在特征 。 同时 , 评估过程需要充分考虑读者的阅读体验 。 此外 , 影响文章质量的因素包括内容 , 排版布局 , 写作风格等不同方面下的多种影响因素 。 这些都使得自媒体在线文章质量的自动评估变得更加复杂和具有挑战性 。
为了解决这些挑战 , 在 ACM MM2020 中 , 腾讯微信数据质量团队建立了一个统一的框架来有效地学习和整合在线文章质量评估的不同因素 , 结合排版布局、写作风格和深度语义建立了一个联合模型 CoQAN, 设计了不同的表示学习子网络 , 特别是考虑了交互特征学习过程和移动终端上的交互阅读习惯 , 这与人类对文章质量评价的认知方式更为贴合 。 作者还构建了一个大规模的真实世界评估数据集 。 充分的实验结果表明 , 所提出的方法有效地学习和整合了在线文章质量评估的不同因素 。
文章图片
论文链接:https://arxiv.org/pdf/2008.05658.pdf
考虑到自媒体平台的性质 , 作者将自媒体在线文章质量合理地定义为文章带给用户的阅读体验水平 , 即文章的可读性 , 反映在文章的信息内容、写作规范、用户感知等方面 。
高质量文章需要满足布局工整美观 , 有清晰的版块和段落划分 , 图片和文字排列整齐; 内容具有连贯性和高聚合度 , 具有良好的写作逻辑和丰富的信息 。 相反 , 低质量的文章往往布局或写作逻辑令人困惑 , 内容不完整或无意义 , 甚至可能是一片拥挤的文本或混乱的纯图片或视频 。
图 1 展示了两篇报道同一新闻「绑架和谋杀中国学者张莹颖事件」的微信公众号文章 , 我们可以很容易地分辨出它们之间的区别:右侧低质量的文章包含不相关的广告图片 , 并且它在很少的文本行数中使用了多种文本格式 , 这给读者的眼睛带来了不必要的负担 , 而且在表达上使用了更多口语和情感词 。 相反地 , 左侧的高质量文章具有更好的写作逻辑和表达方式并传达了更丰富的内容 。
文章图片
图 1:高质文章(左)与低质文章(右)示例
我们知道人类阅读自媒体在线文章时的认知过程是由浅入深的 。
读者点开文章时 , 首先感受到的是排版外观 , 即读者的表层认知 。 精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣 , 并为读者带来更好的阅读体验 。
然后 , 读者通过浏览词汇、句法、文章组织和图片来获得内容的主要印象 , 这是读者的浅层认知 。
最后 , 读者需要对文本语义和写作逻辑有深度的理解 , 才能领略到文章的意义和价值 , 这是读者的深层认知 。
受上述认知过程的启发 , 本文建议结合布局组织、写作特征和文本语义 , 交互地进行特征表示学习并整合到统一框架中以评估自媒体在线文章的质量 。 不同于传统的文档质量评估大多只考虑文本要素 , 本文所提方法将图片用作建模页面布局的关键单元 , 并提取重要的图片特征以反映视觉观感水平和文章的可读性 。
该工作的主要贡献包括:
据了解 , 这是解决自媒体在线文章质量自动评估的第一项研究工作 。 所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯 。
作者提出了一个结合了不同特征空间子网络的联合认知表示学习模型 , 并构建了自媒体在线文章质量评估的端到端框架 。
作者构造一个大规模的现实世界数据集 。 充分的实验结果表明 , 提出的模型明显优于以往的文档质量评估方法 。
具体方法
本文将自媒体在线文章质量评估视为一项分类任务 , 即给定一篇文章 , 预测其为高质量文章或是低质量文章 。
图 2 展示了本文提出的自媒体在线文章质量评估的 CoQAN 网络架构 , 其中设计了三个子网络来解耦布局组织、写作特征和文本语义的建模 。
推荐阅读
- |《我的女友是机器人》首曝花絮,辛芷蕾包贝尔搞怪
- 综艺节目|艺人新媒体指数综艺排名,四位明星能进前十,这节目居功至伟!
- 【地评线】安全开学,精细化防控
- 【地评线】京彩好评:改革不停顿开放不止步是最好的纪念
- 【地评线】安全开学,精细化防控|【地评线】安全开学,精细化防控
- 外交部回应安倍晋三宣布辞职:祝愿他早日康复
- 外交部|外交部回应安倍晋三宣布辞职:祝愿他早日康复
- 意大利|意大利:为开学做准备
- 亿吨级油田陆梁油田累产原油突破3000万吨
- 【行走自贸区】一面墙、一个窗口、一张空域图,为何让媒体采访团纷纷驻足?