计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士( 二 )



但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号 。
与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一 。
但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点 。
缺点,是可能出现AI用错误的步骤得到正确答案的情况 。
优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来 。
到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术 。
先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出 。
具体来说就是在提问的同时给一个分步骤回答的示例来引导 。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

最后还有Majority Voting多数表决方法,也是今年3月才发表的 。
让AI多次回答同一个题目,选择答案中出现频率最高的 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA 。
甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

说了这么多,Minerva具体都能做出哪些题目?
对此谷歌也开放出了样例集,一起来看一下 。
数理化生全能,连机器学习都会
数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

对于应用题,可以自己列出方程式并做简化 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

甚至还可以推导证明 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题 。
以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

以下哪种是放射性元素?
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

以及天文学:为什么地球拥有很强的磁场?
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

……
不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
文章图片

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性 。
计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士


推荐阅读