龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类

不知道你有没有印象 , 此前一位长着大圆脸、招风耳 , 身着黄色僧袍的“贤二”机器僧 , 曾因呆萌的外表和 “我去问问我师父”等口头禅“霸占”了不少社交平台 。 在12月20日由腾讯发起的2020 Techo Park开发者大会分论坛上 , 也迎来了一位特殊的演讲嘉宾 。 和“贤二”一样 , 这位嘉宾——贤超法师也来自北京龙泉寺 。
贤超是北京大学物理学院凝聚态物理研究所硕士 , 现在是北京市海淀区龙泉寺藏经办公室主任 。 他透露 , 自己之所以会关注到人工智能 , 和阿尔法狗战胜李世石不无关系 。 从那时候起 , 贤超开始尝试将人工智能和自己研究的OCR(识别、获取图像等文件上的文本资料)以及自动标点相结合 。
龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类文章插图
贤超法师在演讲中 。
“在围棋领域 , 人类已经一败涂地 。 我们中华文明非常重视文字记录 , 文献古籍承载了我们民族的记忆 , 那么我想 , 文献古籍会不会再次成为人类的滑铁卢?AI如此‘不讲武德’ , 我们人类如何应战?” 贤超说 。
贤超首先介绍了自动标点技术 。 所谓自动标点 , 是指在没有人工干预的前提下 , 根据算法给古籍文本自动标注现代中文标点的技术 , 这主要是为了方便现代读者阅读 。
他说 , 和现代标点不同 , 古代的标点又称句读 , 大体相当于只有逗号(或顿号)和句号 。 现代标点则分为两类 , 一类是标号 , 比如双引号、单引号、书名号等;第二类则是点号 , 比如句号、问号、感叹号等等……根据统计 , 大约每五到六个汉字就需要加一个点号 , 其中逗号、句号、冒号等出现频率较高 。
龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类文章插图
古文标点的出现频率 。
贤超指出 , 标点符号还具有可替代性 , 因为不同的人可能会有不同的标注方法 , 其中分号和顿号的可替代性最强 , 也就意味着使用的必要性最弱 , 反之亦然 。
龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类文章插图
标点符号可替代的统计 。
据他介绍 , 人工智能首次被应用到这个领域 , 只是用于自动断句 , 也就是给古文加句号 , 但贤超认为这个做法“是比较保守 , 比较学术性的” 。 后来 , 贤超说 , 自己的团队将深度学习运用到了自动标点上 。
那么效果如何?贤超提到 , 如果是人工独立完成的标点 , 作品之间的相似度应该是在80%左右 , 相似度过高则会有抄袭的嫌疑 。 根据这个标准 , 贤超团队研发的Transformer所标注的结果和人类的标注结果“几乎已经无法区分” 。
龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类文章插图
对于Transformer自动标注结果的评价 。
贤超还认为 , 自动标点还有一定的灵活性和规范性 。 以“谛听谛听善思念之”这八个字为例 , 贤超说 , 人类至少有16种不同的添加标点符号方式 , 但自动标点只给出了六种方案 , 也不会“过于单一” 。
龙泉寺法师研发AI自动标点:给古文加标点,效果接近人类文章插图
自动标点的标注结果 。
在讲述自动标点技术之后 , 贤超开始讲解超分辨率与古籍图像增强技术 。 他认为 , 如果能实现“所见即所出” , 就是将屏幕上人眼所能看到的图像 , “重建”到符合出版的要求 , 会大大促进古籍的传播和普及 。
此外 , 这也有利于存储古籍图像 。 贤超介绍道 , 古籍图像的存储成本非常巨大 , 而超分辨率实际上是一个非常高效的解压技术 , 即使保存的是很低分辨率的图像 , 也可以随时重建成一个高清晰度的图像 , 那么“它存储起来会非常非常经济 。 ”


推荐阅读