人工智能的“胡言乱语”,有没有解法?( 二 )


不久前 , 两项来自顶刊的研究就表明:GPT-4可能完全没有推理能力 。第一项研究来自麻省理工的校友 Konstantine Arkoudas 。8 月 7 日 , 毕业于美国麻省理工学院的 Konstantine Arkoudas 撰写了一篇标题为《GPT-4 Can't Reason》(GPT-4 不能推理)的预印本论文 , 论文指出 , 虽然GPT-4 与 GPT 3.5 相比有了全面的实质性改进 , 但基于21种不同类型的推理集对GPT-4进行评估后 , 研究人员发现 , GPT-4完全不具备推理能力 。
而另一篇来自加利福尼亚大学和华盛顿大学的研究也发现 , GPT-4 , 以及GPT-3.5在大学的数学、物理、化学任务的推理上 , 表现不佳 。研究人员基于2个数据集 , 通过对GPT-4和GPT-3.5采用不同提示策略进行深入研究 , 结果显示 , GPT-4成绩平均总分仅为35.8% 。
而“GPT-4完全不具备推理能力”的背后原因 , 正是AI幻觉问题 。也就是说 , ChatGPT虽然能够通过所挖掘的单词之间的关联统计关系合成语言答案 , 但却不能够判断答案中内容的可信度 。
换言之 , AI大模型没有足够的内部理解 , 也不能真正理解世界是如何运作的 。AI大模型就好像知道一个事情的规则 , 但不知道这些规则是为什么 。这使得AI大模型难以在复杂的情况下做出有力的推理 , 因为它们可能仅仅是根据已知的信息做出表面上的结论 。
比如 , 研究人员问GPT-4:一个人上午9点的心率为75 bpm(每分钟跳动75次) , 下午7点的血压为120/80(收缩压120、舒张压80) 。她于晚上11点死亡 。她中午还活着吗?GPT-4则回答:根据所提供的信息 , 无法确定这个人中午是否还活着 。但显而易见的常识是“人在死前是活着的 , 死后就不会再活着” , 可惜 , GPT-4并不懂这个道理 。
AI幻觉有无解法?
AI幻觉的危害性显而易见 , 其最大的危险之处就在于 , AI大模型的输出看起来是正确的 , 而本质上却是错误的 。这使得它不能被完全信任 。
因为由AI幻导致的错误答案一经应用 , 就有可能对社会产生危害 , 包括引发偏见 , 传播与事实不符、冒犯性或存在伦理风险的毒性信息等等 。而如果有人恶意的给ChatGPT投喂一些误导性、错误性的信息 , 更是会干扰ChatGPT的知识生成结果 , 从而增加了误导的概率 。
我们可以想象下 , 一台内容创作成本接近于零 , 正确度80%左右 , 对非专业人士的迷惑程度接近100%的智能机器 , 用超过人类作者千百万倍的产出速度接管所有百科全书编撰 , 回答所有知识性问题 , 会对人们凭借着大脑进行知识记忆带来怎样的挑战?
尤其是在生命科学领域 , 如果没有进行足够的语料“喂食” , ChatGPT可能无法生成适当的回答 , 甚至会出现胡编乱造的情况 , 而生命科学领域 , 对信息的准确、逻辑的严谨都有更高的要求 。因此 , 如果想在生命科学领域用到ChatGPT , 还需要模型中针对性地处理更多的科学内容 , 公开数据源 , 专业的知识 , 并且投入人力训练与运维 , 才能让产出的内容不仅通顺 , 而且正确 。
并且 , ChatGPT也难以进行高级逻辑处理 。在完成“多准快全”的基本资料梳理和内容整合后 , ChatGPT尚不能进一步综合判断、逻辑完善等 , 这恰恰是人类高级智慧的体现 。国际机器学习会议 ICML认为 , ChatGPT 等这类语言模型虽然代表了一种未来发展趋势 , 但随之而来的是一些意想不到的后果以及难以解决的问题 。ICML 表示 , ChatGPT 接受公共数据的训练 , 这些数据通常是在未经同意的情况下收集的 , 出了问题难以找到负责的对象 。
而这个问题也正是人工智能面临的客观现实问题 , 就是关于有效、高质量的知识获取 。相对而言 , 高质量的知识类数据通常都有明确的知识产权 , 比如属于作者、出版机构、媒体、科研院所等 。要获得这些高质量的知识数据 , 就面临支付知识产权费用的问题 , 这也是当前摆在ChatGPT目前的客观现实问题 。
目前 , 包括OpenAI在内的主要的大语言模型技术公司都一致表示 , 正在努力改善“幻觉”问题 , 使大模型能够变得更准确 。


推荐阅读