国产AI大模型哪家强？十大维度横评四款主流大模型！( 五 ) _AI大模型

放到编译器中。代码倒是能运行，但是不能输出正确的结果，这说明代码在算法上存在问题。

文章插图
再看 360 智脑的代码，整体格式比通义千问规范，有注释，但是也有多余的空行。

文章插图
运行这段代码，发现无法直接执行，代码在第 6 行就出现了语法错误，不能进行下去。

文章插图
最后是讯飞星火，它给出的代码格式很标准，而且代码相比前三者要简洁很多，看着很清爽。

文章插图
拿到检测工具中进行运行检测，发现这段代码可以直接运行，而且输出的结果也准确，也就是说可以直接拿来用。它成为这个环节中唯一通过检测的代码，可见讯飞星火在写代码的能力上是相当不俗的，毕竟要保证生成的代码能够直接拿来用是相当不容易的，不仅要整体算法正确、格式以及细节也都要合规。这其实也是讯飞星火的强项了。

文章插图
总体来说，在代码编写环节，讯飞星火展现出了比较明显的优势。而在即将到来的 8 月 15 日，讯飞星火还将迎来重要的版本升级，根据已经获知的信息，它们会在代码能力上进一步提升，还是比较值得期待的。
在代码编写环节四款产品的评分分别为：

讯飞星火：10 分文心一言：7 分360 智脑：7 分通义千问：7 分

七、多轮对话能力测试能否记忆上下文聊天的内容，也是 AI 大模型的一个重要能力，很多时候如果我们对大模型的回答不满意或觉得问题提得不好，需要局部微调一下，如果不能记忆上下文，我们就得把问题整体重复一遍，再提出新的要求，很麻烦。因此这里我们也测一下这四款大模型是否支持记忆上下文，也就是多轮对话的能力怎么样。
在这个测试中，我们选择的多轮对话分别为：
“有哪些描写月亮的诗词？
有杜甫写的吗？
你自己可以创作一首吗？
换一首。”
后面三个问题都省去了“描写月亮”这个前提。
还是先看文心一言的测试，四轮对话，文心一言应对得很好，都能根据上文的问题回答出来。

文章插图
通义千问方面，表现也能够让人满意。

文章插图
360 智脑的上下文记忆能力也还行，但美中不足的是，第二个问题把白居易描写草原的诗强行说成了描写月亮的，而且最后一个问题小编让他换一首自己创作的，但它给出的是现有诗词的拼凑。这两个地方应该扣 1 分。

文章插图
最后是讯飞星火大模型，它的表现也是轻松应对没有压力。

文章插图
整体来说，四款 AI 大模型的多轮对话能力都是不错的，除了 360 智脑在回答内容上出了一些小问题，其他三款的表现都没啥毛病。这一环节四款产品的评分分别为：

文心一言：10 分讯飞星火：10 分通义千问：10 分360 智脑：9 分

八、实时搜索能力测试大家使用 AI 大模型来取代搜索引擎获取信息，很多时候肯定是想要获取尽可能比较新的信息，也就是实时搜索能力，这就很考验大模型背后语料库、数据库的更新速度了，同时这也是影响使用体验的重要因素。IT之家也针对这一点做了对比测试。
测试时，小编首先用最近上映的热门电影《长安三万里》来考验它们，询问“电影《长安三万里》讲述了一个什么故事？”
文心一言首先给了一个错误的回答：
通义千问也阵亡了：