国产AI大模型哪家强？十大维度横评四款主流大模型！ _AI大模型

自从 ChatGPT 火热出圈，由生成式 AI 掀起的全球人工智能新浪潮就拉开了序幕，围绕认知大模型的类 ChatGPT 技术和产品正在不断涌现。
对于国内用户来说，目前不少大模型产品已经开放内测。不过，目前这些大模型产品在完善度、功能性、易用性等方面都各有不同，大家可能不知如何选择。
今天，IT之家不妨就针对几款产品为大家做个体验横评。
本次横评测试，IT之家主要针对通用大模型产品，并且选择了目前知名度比较高的四款产品，分别是百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问和 360 智脑。

文章插图
不同的测试大类中，我们以满分 10 分计，如果某款大模型在某个测试小项中不符合要求或者体验不好，根据轻重每次扣除 1-3 分，最后剩余的分数为该大模型在这个测试大类的评分。
评测以及评分过程中难免会存在主观的因素，因此分数仅供大家参考。
由于接下来详细评测部分内容较多，为了方便大家更好地抓住重点，小编不妨先将评测结果先简要透露一下。这次对比横评共 10 个大项，每个大项 10 分，总分也就是 100 分。而具体四款产品的得分分别是：

讯飞星火：93 分文心一言：84 分360 智脑：75 分通义千问：71 分

文章插图
讯飞星火的表现相信会让大家感到惊艳，事实也是在这次横评中，讯飞星火在每个项目都能保持前二的成绩，特别建议大家关注他在实时搜索、内容生成和代码编写方面的表现。此外文心一言也是不错的，在内容生成、避坑能力、多模态输出等方面都有不俗之处。
当然，具体每款产品为什么最终是这个分数？好在哪里？丢分项又在哪里？大家则可以通过下面详细的评测过程进行了解。
话不多说，就让我们开始吧。
一、终端支持
在大模型支持的平台丰富度方面，文心一言目前支持网页端、Android/ target=_blank class=infotextkey>安卓 /IOS App，暂时没有桌面 / mac 版和微信小程序。

文章插图
通义千问目前则只有网页端可用。
360 智脑方面，目前覆盖了网页版、安卓 /iOS 移动 App 和桌面版（无 Mac），支持的平台还是比较多的。

文章插图
而覆盖最多的是讯飞星火，目前讯飞星火是唯一支持五端（安卓、IOS、小程序、PC、H5）全覆盖的大模型。

文章插图
这一环节，小编给四款产品的评分分别是：

讯飞星火：10 分360 智脑：9 分文心一言：9 分通义千问：7 分

二、语言理解能力测试AI 大模型的本质其实就是大语言模型，因此语言理解可以说是影响各种大模型产品体验的基础要素。这里小编先测试上面四款产品对中文语意的理解能力。
① 语意理解
首先用经典的一词多意的段子来考验大模型们：
领导说：“你这是什么意思？”小明说:“没什么意思，意思意思。" 领导说：“你这就不够意思了。”小明说:“小意思，小意思。”
这段话里，不同的“意思”分别代表什么意思？
先看文心一言的解释，具体、准确，没有遗漏：

文章插图
通义千问不仅回答了每个“意思”的意思，更给出了职场沟通的建议，回答很有逻辑性：

文章插图
讯飞星火的回答也是比较靠谱的，对每个“意思”的解释相比前两者更详尽深入，特别是最后一句，讯飞星火对一句话里的两个“小意思”都做了解释。

文章插图
360 智脑的回答就有点简单了，回答得比较模糊笼统：

文章插图
② 情感分析
接下来，小编要看看这几款大模型能不能准确分析一段文本中的情感色彩，能否更好地了解文本内容观点和态度。因此小编选择一段经典电影台词来测试。
从结果来看，文心一言、讯飞星火、360 智脑和通义千问的回答各有特点，但整体意思都是准确的，都没有把句子的含义局限在“鸟”这个喻体上，因此回答都是合格的。