计算机|AI做题家卷疯了！高数考试正确率81% 竞赛题成绩超过计算机博士高数|AI|AI做题家卷疯了！高数

高数考不好，不知道是多少人的噩梦。
如果说你高数考得还不如AI好，是不是就更难以接受了？
没错，来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%，妥妥的MIT本科生水平。
课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

文章图片

这件事最近还登上了微博热搜。

文章图片

△“仅”得81分，对AI的期待也太高了吧
现在，谷歌那边又传来了最新大消息：
不止数学，我们的AI甚至在整个理工科上，都已经拿到最高分啦！
看来在培养“AI做题家”这件事上，科技巨头们已经卷出了新高度。

文章图片

谷歌这个最新AI做题家，参加了四门考试。
数学竞赛考试MATH，以往只有三届IMO金牌得主才拿过90分，普通的计算机博士甚至只能拿到40分左右。
至于别的AI做题家们，以前最好成绩只有6.9分……
但这一次，谷歌新AI却刷到了50分，比计算机博士还高。
综合考试MMLU-STEM，内含数理化生、电子工程和计算机科学，题目难度达到高中甚至大学水平。
这一次，谷歌AI“满血版”，也都拿到了做题家中的最高分，直接将分数拉高了20分左右。

文章图片

小学数学题GSM8k，直接将成绩拉升到78分，相比之下GPT-3还没及格（仅55分）。
就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程，谷歌新AI也能在200多道题中，答出将近三分之一。

文章图片

最重要的是，与OpenAI凭借“编程技巧”取得数学高分的方法不同，谷歌AI这一次，走的可是“像人一样思考”的路子——
它像一个文科生一样只背书不做题，却掌握了更好的理工科解题技巧。
值得一提的是，论文一作Lewkowycz还分享了一个论文中没写到的亮点：
我们的模型参加了今年的波兰数学高考，成绩比全国平均分还要高。

文章图片

看到这里，有的家长已经坐不住了。
如果告诉我女儿这件事，我怕她用AI做作业。但如果不告诉她，就没有让她对未来做好准备！

文章图片

在业内人士看来，只靠语言模型，不对算数、逻辑和代数做硬编码达到这种水平，是这项研究最惊艳的地方。

文章图片

那么，这是怎么做到的？
AI狂读arXiv上200万篇论文
新模型Minerva，基于Pathway架构下的通用语言模型PaLM改造而来。
分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。
Minerva做题与Codex的思路完全不同。
Codex的方法是把每道数学题改写成编程题，再靠写代码来解决。
而Minerva则是狂读论文，硬生生按理解自然语言的方式去理解数学符号。
在PaLM的基础上继续训练，新增的数据集有三部分：
主要有arXiv上收集的200万篇学术论文，60GB带LaTeX公式的网页，以及一小部分在PaLM训练阶段就用到过的文本。

文章图片

通常的NLP数据清洗过程会把符号都删掉只保留纯文字，导致公式不完整，比如爱因斯坦著名的质能方程只剩下了Emc2 。

文章图片

计算机|AI做题家卷疯了！高数考试正确率81% 竞赛题成绩超过计算机博士

推荐阅读

雪花秀适合什么年龄段的人使用？

搞笑闽吴|说出一句流传千年的话，却死的不明不白挺遗憾，此人射术堪比黄忠

石竹的摆放技巧石竹怎么盆栽

洋哥爱生活|紫荆花开，红鸾再现，旧爱拉扯，情有余温，余生共相随，15天后

小了白了兔|凭此拿到近两万奖学金, 邻近毕业却后悔不已!，我在大学干团支书,

|还能盼来“吃猪自由”吗？，中国冻猪肉储备恐耗尽

脚气怎么治疗，推荐五个有效的方法

香蕉每次可以吃多少根

大家吃完火锅一般喝啥来降火中国好凉茶吗

【生肖小哥哥6514252305】不露锋芒，装傻能力一流，不容小觑，这几个星座“外傻内精”

恒大|恒大深夜发声：成立24年共借款20523笔，从未有利息晚付、本金逾期归还

录屏器下载在什么地方？好用的录屏器软件分享

中国设计中心|特斯拉中国设计中心正在招聘或推中国风电动车

属马@未来三个月，4属相迎来好运，大富大贵，家庭幸福美满，吉祥安康

最高可享12期免息海信阅读手机A5京东聚惠来袭

烹饪|晒晒我家一周的午餐，简单好吃不浪费，网友：一看就是北方人餐桌

鸡胸肉|自用抑菌液测评分享！不愧是宝藏国货，短短45天新甲蹭蹭冒！

出手|比九灵元圣还厉害的妖怪，他一出手三界就会动乱

李宇春|女人味穿搭都可以跟李宇春学了！穿短裙配高筒靴，撩人有范儿极了

瘦子增肌健身教练使用方法