计算机|AI做题家卷疯了!高数考试正确率81% 竞赛题成绩超过计算机博士
高数考不好,不知道是多少人的噩梦 。
如果说你高数考得还不如AI好,是不是就更难以接受了?
没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平 。
课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图 。
文章图片
这件事最近还登上了微博热搜 。
文章图片
△“仅”得81分,对AI的期待也太高了吧
现在,谷歌那边又传来了最新大消息:
不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!
看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度 。
文章图片
谷歌这个最新AI做题家,参加了四门考试 。
数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右 。
至于别的AI做题家们,以前最好成绩只有6.9分……
但这一次,谷歌新AI却刷到了50分,比计算机博士还高 。
综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平 。
这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右 。
文章图片
小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分) 。
就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一 。
文章图片
最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——
它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧 。
值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:
我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高 。
文章图片
看到这里,有的家长已经坐不住了 。
如果告诉我女儿这件事,我怕她用AI做作业 。但如果不告诉她,就没有让她对未来做好准备!
文章图片
在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方 。
文章图片
那么,这是怎么做到的?
AI狂读arXiv上200万篇论文
新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来 。
分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练 。
Minerva做题与Codex的思路完全不同 。
Codex的方法是把每道数学题改写成编程题,再靠写代码来解决 。
而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号 。
在PaLM的基础上继续训练,新增的数据集有三部分:
主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本 。
文章图片
通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2 。
文章图片
推荐阅读
- 索尼|索尼问卷调研Xperia手机系统:或将全面换用魅族Flyme
- 京东|6000亿美妆市场激烈搏杀,但有人在破“内卷”|| 焦点
- 巧克力奶油蛋卷的做法,巧克力鸡蛋卷的做法-
- 烤豆腐皮卷金针菇
- 干豆腐卷金针菇的做法
- 金针菇卷豆皮家常做法
- 火腿金针菇卷的做法
- 今年冬天新冠病毒还会来吗-今年冬天新冠病毒会卷土重来吗-疫情2021年冬天还会反弹吗
- 计算机等级分几级?
- 摩托罗拉|OPPO摩托罗拉密谋卷轴屏:智能手机新形态 颠覆以往