混元大模型终于亮相,全链路自研降低大模型幻觉,腾讯慢工出细活


混元大模型终于亮相,全链路自研降低大模型幻觉,腾讯慢工出细活

文章插图
图源:视觉中国备受市场期待的腾讯自研通用大模型“混元”,终于浮出水面 。
在9月7日举办的2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放 。
据腾讯集团高级执行副总裁、腾讯云与智慧产业事业群CEO汤道生介绍,混元大模型拥有超千亿参数规模,预训练语料超2万亿tokens,具有强大的中文理解与创作能力、逻辑推理能力,以及可靠的任务执行能力,并在解决大模型常见的“幻觉”问题上取得了明显进步 。
混元大模型终于亮相,全链路自研降低大模型幻觉,腾讯慢工出细活

文章插图
混元大模型与其他大模型的效果对比,图片来源:腾讯方面提供此时国内首批大模型应用刚刚通过备案上线,更大规模的市场终于向这一新兴技术开放,国产大模型的混战因此开始进入全新的竞争阶段,卷应用而不是卷技术,成为业界共识 。
混元大模型,同样以“实用级”大模型自居 。腾讯方面指出,混元大模型从实践中来,其技术积累来自腾讯丰富的应用场景,且经过多个业务场景充分磨炼,是多次迭代之后的通用技术底座,更能满足应用需要 。
并要向实践中去 。据汤道生透露,目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等超过50个腾讯业务和产品,已经接入腾讯混元大模型测试,并取得初步效果 。
与此同时,汤道生指出,混元大模型还将作为腾讯云MaaS服务的底座,客户不仅可以直接通过API调用混元,也可以将混元作为基底模型,开发不同产业场景的应用 。
从这个角度来看,腾讯再一次展露出它的狡黠 。在一场又一场激烈的战役之中,这家互联网大厂或许并不会在第一个抵达战场,但它会花更长的时间排兵布阵、筹备军粮,在最关键的时刻,用最好的状态冲向沙场 。
慢工出细活
在大模型战场上,混元大模型似乎来得有些迟 。
早在6个月前,百度就曾发布文心一言 。阿里通义千问、科大迅速星火、华为盘古等一众大模型紧跟百度的步伐,在接下来的两三个月时间内密集发布 。赛迪顾问数据显示,截至 2023 年 7 月,中国累计已经有130个大模型问世 。
市场因此担心,腾讯会错失先发优势,在后续竞争中处于被动地位 。
但在腾讯内部,有着完全不一样的看法 。早在今年5月,腾讯董事会主席马化腾就曾对外指出,我们认为这是几百年不遇的、类似发明电的工业革命一样的机遇 。我们也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示 。
“对于工业革命来讲,早一个月把电灯泡拿出来在长的时间跨度上来看是不那么重要的 。关键还是要把底层的算法、算力和数据扎扎实实做好 。”
相比国内部分厂商直接调用国外开源模型进行训练的方法,腾讯自研大模型因此走向一条更难但更为正确的道路 。
据腾讯集团副总裁蒋杰介绍,混元大模型从第一个token开始从零训练,掌握了从模型算法到机器学习框架,再到AI基础设施的全链路自研技术 。
混元大模型终于亮相,全链路自研降低大模型幻觉,腾讯慢工出细活

文章插图
腾讯集团副总裁蒋杰,图片来源:腾讯方面提供冷启动、从零开始,腾讯自研大模型所需时间因此被大大拉长 。但也正是得益于此,腾讯才能在一些困扰业界的问题上找到突破口 。
如此前不断被讨论的大模型“幻觉”问题 。正是因为正确率无法保证,大模型实际的应用场景才会被局限在容错率高、任务简单的休闲场景,无法进一步深入 。腾讯为此在算法层面进行了一系列自研创新,提高了模型可靠性和成熟度 。
如针对大模型容易“胡言乱语”的问题,腾讯优化了预训练算法及策略,让混元大模型的幻觉相比主流开源大模型降低了30%至50%;通过强化学习的方法,让模型学会识别陷阱问题,可以拒绝回答不恰当的用户问题;通过位置编码优化,提高了超长文的处理效果和性能 。
此外,腾讯的研发团队还提出了思维链的新策略,能够让大模型能够像人一样结合实际的应用场景进行推理和决策 。
与此同时,蒋杰指出,腾讯的自研机器学习框架Angel让训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍 。
【混元大模型终于亮相,全链路自研降低大模型幻觉,腾讯慢工出细活】


推荐阅读