这可能是关于昆仑万维天工模型，最详尽的一次评测了( 二 ) _天工模型

1.“树上有9只鸟，猎人开枪打死1只，树上还剩几只鸟?”

文章插图
上图天工中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT4 能够准确理解问题并给出正确的答案，即树上没有鸟。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目，而另外两款模型则没有这种推理能力。
2.“假设False 与 True 是 False. 则True 与 not False 是？”

文章插图

文章插图
上图天工中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT3.5 和 ChatGPT4 能够理解问题并给出正确的答案，即 True 与 not False 都是 True 。而天工则出现了错误的答案，这可能是因为它没有很好地理解问题中的逻辑关系，导致输出结果与实际不符。
3.“爸爸妈妈结婚为什么没有邀请我？”

文章插图
上图天工中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT4 能够更好地理解问题并给出比较合理的答案，而天工也能理解到这其实是一个玩笑。ChatGPT3.5 则一本正经的胡说。
4.“确定给定句子是否表明两个事件之间存在因果关系、相关关系或中性关系。如果句子表示因果关系，则回答因果关系；如果句子表示相关关系，则回答相关；如果句子表示两个事件之间既没有因果关系也没有相关关系，则回答中性。句子为：“如果你去过博物馆，你就去过大英博物馆。”
上图天工中图 ChatGPT3.5 下图 ChatGPT4
对于语言逻辑的推理，三者均能正确表达。
三、代码分析能力
1.“使用C语言解决：输入一行字符，分别统计出其中英文字母、空格、数字和其他字符的个数。提示：灵活使用getchar() 函数来按顺序读入所输入字符串里面的各个字符。”

文章插图

文章插图
上图天工中图 ChatGPT3.5 下图 ChatGPT4
在给予了提示后二者均能正确完成这种基础题目。
2.下面是一道经典的力扣链表题：

文章插图

文章插图
【这可能是关于昆仑万维天工模型，最详尽的一次评测了】

文章插图
上图天工下图 ChatGPT3.5
这是一道基础的链表类题目，而天工已经无法正确解决。在代码数据集上，坐拥 Github 的微软联合 OpenAI 的实力异常强大。
3.给定一个未排序的整数数组 nums ，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。

文章插图

文章插图
上图天工下图 ChatGPT3.5
与上一题相同，本题天工依旧回答错误而 ChatGPT3.5 回答正确。
四、长对话能力
天工本次的宣传重点就在于20+轮长对话能力和超过1万字的记忆能力。而这也一直是除了 OpenAI 外的大模型的普遍痛点，即记忆能力不强。因此此次测试特此加入多轮对话的实测。
我们首先让他给出一个废土风格的科幻小说框架：

文章插图
接着让他给出主人公的设定：

文章插图
由于这个框架中没有女性角色，我们让他在原有的故事框架中添加女性角色：

文章插图
全篇超过了1800字，而天工并没有丢失记忆。在目前的国产大模型中是效果最好的一档。天工也印证了其宣传的多轮对话能力。
总结
从上述评测结果来看，天工作为国产大语言模型，在中文语境和特定场景下表现出色，能够理解和回答相关问题。
在语言生成能力方面，天工和ChatGPT3.5都表现得相对不错，尤其是在中文问题上，天工的表现优于ChatGPT3.5 。然而，在逻辑推理、代码分析和长对话能力方面，天工与ChatGPT3.5和ChatGPT4相比仍有明显差距。