徐立说,4月发布大模型后,商汤每周都在对大模型做迭代 。此外,针对行业需求,他们也在大模型基础上推出了小模型 。
作为国内首个发布大模型的互联网大厂,百度也在人工智能大会上公布了“文心一言”最新进展 。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰称,文心大模型3.5效果、功能、性能全面提升,实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍 。
此外,做大模型的公司们,当下也正在努力搭建生态,建立标准 。7月7日,百度、华为、阿里巴巴等企业被工信部中国电子技术标准化研究院(简称“电子标准院”)授予“国家人工智能标准化总体组大模型专题组”组长单位,正在积极推动大模型国家标准体系建设,助力中国大模型产业发展 。
文章插图
卷算力
与3、4月份人们充满期待的科幻想象相比,当下做大模型的人,关注的话题更接近现实 。他们发现,数据是难题,算力也是难题,大模型这条路,前景美好但现实艰难 。
“算力是人工智能产业创新的基础,大模型的持续创新,驱动算力需求的爆炸式增长 。可以说,大模型训练的效率或者是创新的速度,根本上取决于算力的大小 。”华为轮值董事长胡厚崑判断,伴随大模型带来的生成式 AI 突破,人工智能正在进入一个新的时代,算力已经成为越来越稀缺的资源 。
华为目前正在着手解决算力问题 。7月6日,华为宣布旗下算力解决方案昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,为业界首个万卡AI集群 。此前,腾讯云也面向大模型发布新一代高性能计算集群,算力性能较前代提升高达3倍 。
不过,当前的算力仍有很大挑战 。一位大模型创业公司人士告诉采访人员,大模型的研发成本非常高昂 。仅算力一个领域,做训练、推理、数据处理,就需要数千卡并行的能力,这是一套非常复杂,也非常费钱的系统工程 。
清华大学电子工程系系主任汪玉举了一个例子,若同时处理14亿人的推理请求,需要10*24 FLOPs(模型计算力),这个数字超过中国数据中心总算力的3个数量级 。
“现有GPU硬件平台的算力仍难满足大模型的需求 。”汪玉说 。即使现有的最好的芯片,想解决算力问题也仍有很大挑战 。
算力之外,大模型数据也有挑战 。一位做智能汽车的创始人苦恼于数据量太大,他们公司刚卖了1万辆汽车,但产生的数据已经让他觉得很庞大了,他不敢想象卖到10万辆车时会怎样 。硬币的另一面,也有人因为数据不够而感到困难,一位用大模型做生物医药研发的人士说,他们最缺的就是数据,这阻碍了他们研发医药的速度 。
腾讯高级执行副总裁汤道生表示,通用大模型一般基于公开信息来训练,在许多专业知识和行业数据积累不足 。在策略上,通用大模型有点像“把大海煮沸”,不够聚焦,可以解决80%的问题,但未必能够满足企业某个场景的具体需求 。
徐立也提到,大模型的幻觉性问题仍很严重,是需要解决的问题 。幻觉性问题是自然语言处理领域中的基础问题之一,指文本生成模型的生成结果中含有与输入事实上冲突的内容 。这些问题造成了大模型“一本正经的胡说八道”现象 。
除此之外,清华大学智能产业研究院院长、中国工程院院士张亚勤提到,当下大模型仍有自己的局限性 。比如ChatGPT会有时效性问题,你问它它是什么时候发布的,它不知道,因为它使用的是2021年9月前的数据 。另外,大模型还有效率低、涉嫌侵犯隐私和知识产权保护问题等,这些问题都将影响大模型的商用 。张亚勤认为,大模型效率至少还要提高10倍,才有大规模商用的可能性 。
【大模型内卷:2天发了10余款,百模大战开打了】
推荐阅读
- 图 大模型“国家队”亮相,6家公司名单公布
- 大模型时代的下OCR,“CPU味道”更重了
- 文心大模型升级3.5版本,有多强?我们帮你试了试
- 揭秘华为行业大模型:不作诗的盘古,只做哪些事?
- 大模型时代到来 算力够用吗?
- 央企招聘“内卷”加剧,高校毕业生要有清醒认识
- DNF:全职业前500名一览!鬼剑士疯狂内卷,人均5.2名望起步
- 中石油招聘太内卷,1个行政岗470名硕博生竞争,全是985顶级院校
- 抖音团队在用的大模型服务平台"火山方舟",我们也上手体验了一把
- 从狂热到理性:大模型训练三堵墙,一场少数人的游戏