国产AI大模型哪家强?十大维度横评四款主流大模型!( 五 )


放到编译器中 。代码倒是能运行,但是不能输出正确的结果,这说明代码在算法上存在问题 。

国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
再看 360 智脑的代码,整体格式比通义千问规范,有注释,但是也有多余的空行 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
运行这段代码,发现无法直接执行,代码在第 6 行就出现了语法错误,不能进行下去 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
最后是讯飞星火,它给出的代码格式很标准,而且代码相比前三者要简洁很多,看着很清爽 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
拿到检测工具中进行运行检测,发现这段代码可以直接运行,而且输出的结果也准确,也就是说可以直接拿来用 。它成为这个环节中唯一通过检测的代码,可见讯飞星火在写代码的能力上是相当不俗的,毕竟要保证生成的代码能够直接拿来用是相当不容易的,不仅要整体算法正确、格式以及细节也都要合规 。这其实也是讯飞星火的强项了 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
总体来说,在代码编写环节,讯飞星火展现出了比较明显的优势 。而在即将到来的 8 月 15 日,讯飞星火还将迎来重要的版本升级,根据已经获知的信息,它们会在代码能力上进一步提升,还是比较值得期待的 。
在代码编写环节四款产品的评分分别为:
讯飞星火:10 分文心一言:7 分360 智脑:7 分通义千问:7 分
七、多轮对话能力测试能否记忆上下文聊天的内容,也是 AI 大模型的一个重要能力,很多时候如果我们对大模型的回答不满意或觉得问题提得不好,需要局部微调一下,如果不能记忆上下文,我们就得把问题整体重复一遍,再提出新的要求,很麻烦 。因此这里我们也测一下这四款大模型是否支持记忆上下文,也就是多轮对话的能力怎么样 。
在这个测试中,我们选择的多轮对话分别为:
“有哪些描写月亮的诗词?
有杜甫写的吗?
你自己可以创作一首吗?
换一首 。”
后面三个问题都省去了“描写月亮”这个前提 。
还是先看文心一言的测试,四轮对话,文心一言应对得很好,都能根据上文的问题回答出来 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
通义千问方面,表现也能够让人满意 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑的上下文记忆能力也还行,但美中不足的是,第二个问题把白居易描写草原的诗强行说成了描写月亮的,而且最后一个问题小编让他换一首自己创作的,但它给出的是现有诗词的拼凑 。这两个地方应该扣 1 分 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
最后是讯飞星火大模型,它的表现也是轻松应对没有压力 。
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
整体来说,四款 AI 大模型的多轮对话能力都是不错的,除了 360 智脑在回答内容上出了一些小问题,其他三款的表现都没啥毛病 。这一环节四款产品的评分分别为:
文心一言:10 分讯飞星火:10 分通义千问:10 分360 智脑:9 分
八、实时搜索能力测试大家使用 AI 大模型来取代搜索引擎获取信息,很多时候肯定是想要获取尽可能比较新的信息,也就是实时搜索能力,这就很考验大模型背后语料库、数据库的更新速度了,同时这也是影响使用体验的重要因素 。IT之家也针对这一点做了对比测试 。
测试时,小编首先用最近上映的热门电影《长安三万里》来考验它们,询问“电影《长安三万里》讲述了一个什么故事?”
文心一言首先给了一个错误的回答:
通义千问也阵亡了:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
360 智脑扑街 ×3:
这个问题,只有讯飞星火给出了正确答案:
接下来,小编换了一个问题,询问“NBA 球星克里斯?保罗现在效力于哪只球队?”这个问题,四款大模型产品均没有回答正确:
国产AI大模型哪家强?十大维度横评四款主流大模型!

文章插图
球星克里斯?保罗在今年 6 月被交易到金州勇士队,这个时间点其实在《长安三万里》之前,而讯飞星火答对了《长安三万里》的题目,却没有准确回答这一题 。可见大模型背后的语料库对于不同领域的数据更新速度还是不一样的 。


推荐阅读