能否利用 NLP 找到词典中那些循环定义或者定义模糊的词

好问题。我年轻的时候(大概初中吧),曾经幻想过编制一本字典,把汉语(或者英语,或者任何一门语言)当中,不能被仅用该语言词汇库中的其它词汇明确解释(也就是题主说的循环解释,许慎称之为转注)的词列出来,称之为「基本词汇集」。当时我想,有了这个以后,我就可以仅用这本字典里的词汇来描述世间万事万物了,而不需要不断地新造词汇。后来接触到NLP和人工智能,我觉得这种字典可以当做建立类人意识的机器人语料库的Seeds。毕竟,语言是思维的载体,无论在人类还是计算机上。我的这个灵感来自于计算机的ASCII码。当时我刚刚了解到ASCII码的工作原理,就是用0和1的组合表示26个字母以及一些标点符号,还有一些基本的操作(增删改查)。于是,对于一台文字处理机来说,它的基本词汇就是0和1,系统内的所有其他词汇都有这两个无法定义的词汇进行派生。毫无疑问,任何自然语言的词汇都是冗余的。自然语言的语法(grammatical)复杂性提升了语义(semantical)复杂性,为什么计算机只用两个基本词汇0和1,是因为物理层的语法只有「栈」这个一维的测度。在编那本「基本词汇集」的时候,我发现随着科技的进步,语言的发展,一个语言当中的基本词汇越来越少,越来越「去冗余化」,因为越来越多的事物间的内在联系被我们发现了,原本不能被解释的词汇也可以被解释了。也就是说,自然语言的发展,和NLP是两个相反的过程。一个是induction,一个是deduction。这也就是为什么机器翻译可以做到语法上几乎无误而语义上经常出错。就像海森堡测不准定理一样,归纳性质的算法只能逼近语法OR语义其中一项的准确。所以,扯了这么远,本问题我的答案是,利用NLP总结基本词汇,必须把过程反过来。先让机器适应这门语言,再在不断的应用语言过程中,发现并改进词汇的内在联系和组织结构。而且每一种自然语言都一定不只有一本「基本词汇集」,使用不同的算法可以演绎出不同的词汇集,只要结果等效就可以了。那么未来会不会真的出现一门人工语言,其词汇完全由抽象的、不可拆分的、不可解释的词汇组成呢?未来计算机化的社会当中,这种语言会不会打败所有自然语言成为新人类的通用语呢?我很好奇,拭目以待。
■网友
比如“能力”“眼光”“优秀”之类的模糊又常见的词语


    推荐阅读