国产AI大模型哪家强?十大维度横评四款主流大模型!

自从 ChatGPT 火热出圈,由生成式 AI 掀起的全球人工智能新浪潮就拉开了序幕,围绕认知大模型的类 ChatGPT 技术和产品正在不断涌现 。
对于国内用户来说,目前不少大模型产品已经开放内测 。不过,目前这些大模型产品在完善度、功能性、易用性等方面都各有不同,大家可能不知如何选择 。
今天,IT之家不妨就针对几款产品为大家做个体验横评 。
本次横评测试,IT之家主要针对通用大模型产品,并且选择了目前知名度比较高的四款产品,分别是百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问和 360 智脑 。

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
不同的测试大类中,我们以满分 10 分计,如果某款大模型在某个测试小项中不符合要求或者体验不好,根据轻重每次扣除 1-3 分,最后剩余的分数为该大模型在这个测试大类的评分 。
评测以及评分过程中难免会存在主观的因素,因此分数仅供大家参考 。
由于接下来详细评测部分内容较多,为了方便大家更好地抓住重点,小编不妨先将评测结果先简要透露一下 。这次对比横评共 10 个大项,每个大项 10 分,总分也就是 100 分 。而具体四款产品的得分分别是:
讯飞星火:93 分文心一言:84 分360 智脑:75 分通义千问:71 分

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
讯飞星火的表现相信会让大家感到惊艳,事实也是在这次横评中,讯飞星火在每个项目都能保持前二的成绩,特别建议大家关注他在实时搜索、内容生成和代码编写方面的表现 。此外文心一言也是不错的,在内容生成、避坑能力、多模态输出等方面都有不俗之处 。
当然,具体每款产品为什么最终是这个分数?好在哪里?丢分项又在哪里?大家则可以通过下面详细的评测过程进行了解 。
话不多说,就让我们开始吧 。
一、终端支持
在大模型支持的平台丰富度方面,文心一言目前支持网页端、Android/ target=_blank class=infotextkey>安卓 /IOS App,暂时没有桌面 / mac 版和微信小程序 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问目前则只有网页端可用 。
360 智脑方面,目前覆盖了网页版、安卓 /iOS 移动 App 和桌面版(无 Mac),支持的平台还是比较多的 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
而覆盖最多的是讯飞星火,目前讯飞星火是唯一支持五端(安卓、IOS、小程序、PC、H5)全覆盖的大模型 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
这一环节,小编给四款产品的评分分别是:
讯飞星火:10 分360 智脑:9 分文心一言:9 分通义千问:7 分
二、语言理解能力测试AI 大模型的本质其实就是大语言模型,因此语言理解可以说是影响各种大模型产品体验的基础要素 。这里小编先测试上面四款产品对中文语意的理解能力 。
① 语意理解
首先用经典的一词多意的段子来考验大模型们:
领导说:“你这是什么意思?”小明说:“没什么意思,意思意思 。" 领导说:“你这就不够意思了 。”小明说:“小意思,小意思 。”
这段话里,不同的“意思”分别代表什么意思?
先看文心一言的解释,具体、准确,没有遗漏:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问不仅回答了每个“意思”的意思,更给出了职场沟通的建议,回答很有逻辑性:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
讯飞星火的回答也是比较靠谱的,对每个“意思”的解释相比前两者更详尽深入,特别是最后一句,讯飞星火对一句话里的两个“小意思”都做了解释 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑的回答就有点简单了,回答得比较模糊笼统:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
② 情感分析
接下来,小编要看看这几款大模型能不能准确分析一段文本中的情感色彩,能否更好地了解文本内容观点和态度 。因此小编选择一段经典电影台词来测试 。
从结果来看,文心一言、讯飞星火、360 智脑和通义千问的回答各有特点,但整体意思都是准确的,都没有把句子的含义局限在“鸟”这个喻体上,因此回答都是合格的 。


推荐阅读