人工智能的80年进化编年史:从想象到现实( 六 )


人工智能的80年进化编年史:从想象到现实

文章插图
其核心要点是:
大模型拥有复杂推理和思维链能力 。所谓思维链 , 是指在输入里写出示例的具体推断步骤 , 大模型就可以实时学习这个推理(并不需要重新训练)并给出相仿示例的正确答案; 并且 , 大模型可以拆解复杂推理步骤一步步得到最终结果 。
思维链能力是突然"涌现"的 , 如上图 , 当参数规模超过千亿时 , 思维链能力就指数级爆发了 。
根据目前观察 , 参数达到千亿以上的大模型才可能拥有强大的思维链能力 , 而这只是必要条件:有些千亿参数大模型没能展现出思维链能力 。
事实上 , 根据OpenAI的内部研究 , 初始版本的GPT-3 思维链能力也很弱 , 而以为基础的GPT-3.5版本系列则体现了很强的思维链能力 。因此 , 一个有趣的假设是 , GPT-3.5系列思维链能力的"涌现" , 除了达到千亿参数的基础条件外 , 使用代码进行训练也是一个必不可少的前提 。
这个假设对于码农来说很容易接受:程序代码语言本身就特别强调逻辑严密性 , 而且上下文清晰没有混淆之处(这里特指那些"好"的代码...) 。
所以 , 如果说学习"好的代码"能提高人类或者AI的逻辑思维和推理能力 , 程序员们一定不会反对这种看法 。
2022年7月
DeepMind破解了几乎所有已知的蛋白质结构 , 其AlphaFold算法数据库里包含了2亿种已知蛋白质结构 , 这将是人类生命科学的重量级弹药库 。
被Google收购之后 , DeepMind的活力已经大不如前 , 至少在聚光灯下是如此 。这一次 , 在另一条重要的赛道上 , 这家老牌团队还是努力刷出了存在感 。
2022年8月
stability.ai开源了Stable Diffusion绘画大模型的源代码!
开放模型数据使用的AI模型不少 , 但开放全部源码的顶级AI大模型可以说寥寥无几 , Stable Diffusion就是其中最耀眼的开源明星 。
Stable Diffusion是当今技术最顶尖的AI绘画大模型; 基于Stable Diffusion开放的源码 , 大游戏公司的自建AI美术资源生产流程 , 创业小团队的AI绘画相关产品 , 已经如同雨后春笋般涌现出来 。
2022年9月
红杉资本发布了传播甚广的文章《生成式AI:一个创造性的新世界》 , 文中预测 , 生成式AI有可能创造数百万亿美元的经济价值 。
不得不说 , 红杉的嗅觉绝对是这个星球第一的:
仅仅两个月后 , 注定载入科技史册的ChatGPT就发布了 。
2022年10月
Meta推出Make-A-Video , Google推出Imagen video , 两巨头几乎在同一时间推出了文字生成视频的模型 。
尽管当前"文字生成视频"的大模型还纯属玩具阶段 , 和已经进入工业生产状态的AI绘画模型无法相提并论 。但这仍然是个好的开始:人类动动嘴皮子 , 已经可以生成高质量的音乐和图画了; 没有理由不相信 , 不久的将来 , AI可以直接从文字描述生成高质量的长视频 。
大胆再往前走一步:加上ChatGPT这类AI的文字生成能力 , 人类很快连编故事都不需要 , 就可以得到一部电影视频了 。
只是 , 这一天的到来 , 人类自己是否已经准备好了呢?
2022年11月
ChatGPT发布 。随后的事情 , 大家都知道了 。
有意思的是 , ChatGPT并不在OpenAI原本的产品路线图上 , 完全是无心插柳的结果 。
我们知道 , 为了进一步改进GPT-3系列模型 , OpenAI走上了"从人类反馈中强化学习"(RLHF)的路子 。为了让AI能持续和人类沟通来不断反馈完善模型 , 搞出一个聊天机器人就是最好的用户测试接口 。
基于这么一个简单的理工男思路 , 从2022年初开始 , 团队开始打造ChatGPT 。
然后 , 打造出了一个惊世骇俗的AI产品 。
已有众多文章360度无死角点评了ChatGPT , 这里仅简单列举一些有趣的点 。
ChatGPT的特点:
ChatGPT具有很强的逻辑推理能力 , 能拆解复杂的内容 , 分成多个步骤进行推理 , 得到最终答案 。这也就是"思维链"级别的推理能力 。


推荐阅读