[大数据文摘]累死志愿者的维基百科被MIT最新AI接手啦!,每天上千条文本过时
文章图片
大数据文摘出品
来源:MIT
编译:Iris、钱天培
维基百科作为一个开放协同式的百科网站 , 是全世界最受欢迎的十大网站之一 。 目前 , 维基百科已经累积了超过上百万个词条 。
由于事实发生变更 , 每天有千上万的文章需要及时更新 。 编辑工作涉及文章扩展、重大改写 , 或诸如更新数据、日期、人名和地点等例行修订 。 现在 , 这项任务由世界各地的志愿者维护着 。
幸运的是 , MIT的一项最新研究成果有望大大减轻志愿者的维护压力 。
在今年AAAI人工智能大会上 , MIT的几位研究者提出了一个文本生成系统 , 该系统能精确定位维基百科句子 , 还能用近似人类的编写方式替换句子中特定的信息 。
人们只需要在某个界面输入简短的语句 , 指出信息变更 , 这一系统就能自动检索维基百科 , 定位到具体的页面和过时的语句 , 再以人类的方式重写该语句 。
研究者也提到 , 未来可以构建一个全自动化的系统 , 通过识别和运用网络上最新的信息来生成维基百科语句需要重写的句子 。
论文合著者之一的DarshShah , 一位来自计算机科学与人工智能实验室(CSAIL)的博士生表示 , “维基百科的文章一直都有大量的更新工作 , 如果能减少或没有人工干预的情况下 , 实现自动、准确地修订文章 , 那会非常有价值 。 不再需要耗费大量人力来修订维基百科的文章 , 只需几个人便即可搞定 , 因为模型可以自动完成 , 这是巨大的提升 。
事实上 , 已经有许多其他的机器人能自动编辑维基百科 。 Shah提到 , 这些工具一般被用来减少破坏性信息 , 或是去除预定义模板的狭义界定信息 。
他指出 , 他们的新模型解决了人工智能的一个棘手问题:给定一个新的非结构化信息 , 模型会像人一样自动修订语句 。
“其他的机器人更多采用基于规则的方法 , 然而自动修订则是要能够判别两个句子中矛盾的部分 , 并生成连贯的文本 。 ”
论文合著者和CSAIL研究生TalSchuster提到 , 系统还可以使用其他的文本生成应用 。 论文中 , 研究者使用流行的事实核查数据集自动合成语句 , 来减少偏差 , 也无需人工收集额外的数据 。 Schuster表示这种方式可以改善自动化事实核查模型 , 比如 , 训练数据集检测虚假新闻 。
Shah、Schuster、德尔塔电子电气工程与计算机科学ReginaBarzilay教授以及CSAIL的一位教授一起合著了这篇论文 。
“中立屏蔽”
依托一系列的文本生成技术 , 系统得以识别句子的矛盾信息 , 并将两个独立的句子融合在一起 。 将维基百科文章中“过时”句子和“声明”句子作为输入 , 声明句子包含了更新和冲突信息 。 系统会依据声明句子自动删除和保留过时句子中的特定词 , 并在不改变样式和语法情况下更新句子的事实 。 这对人来说很容易 , 但对机器学习而言具备挑战 。
文章图片
举例来说 , 如果要将“费德勒有19个大满贯”更新为“费德勒有20个大满贯” 。 依据声明句子 , 在维基百科找到“费德勒” , 将过时数据(19)替换为新数据(20) , 并保留句子原有的句式和语法 。 在他们的工作中 , 研究者只用到维基百科部分句子的数据集来运行该系统 , 而无需访问百科所有的页面 。
系统采用包含句子对的流行数据集来进行训练 , 每个句子对包含一个声明和另一个相关的维基百科句子 。 每个句子对会被标记为三种状态:同意、不同意、中立 。
“同意”代表句子之间包含的事实信息一致 。 “不同意”代表两个句子之间存在矛盾的信息 。 “中立”代表没有足够的信息来判别是否同意 。 系统依据声明改写过时句子之后 , 所有标记为不同意的句子将变为同意状态 。 这需要两个独立的模型来得到期望的结果 。
推荐阅读
- 「环网电讯」数据中心是什么样的?
- 科技小数据■Python培训完能够做数据分析类的工作吗?
- 北京日报客户端▲27个防疫检查点“扫码登记”,朝阳区半壁店“大数据”防疫
- 【大国博士】一个快捷键就搞定,学会它小白也能当大神,数据可视化、数据汇总
- 【产业气象站】错觉:AI如何通过数据挖掘误导我们|周末读书
- 科技壹零扒:数据再次震撼世界,8500亿!华为发布2019年报
- 『玩懂手机』美国政府终于开始使用位置数据来跟踪COVID-19传播
- 『IT之家』月消费数据28GB 比4G翻倍,韩国5G商用一年:用户破500万
- Gtechnews■IP解决方案加速高性能数据以及F,Achronix采用新思科技DesignWare
- 『上观新闻』为何数据常常偏高?,抢了世卫组织风头的霍普金斯