1.“树上有9只鸟,猎人开枪打死1只,树上还剩几只鸟?”
文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT4 能够准确理解问题并给出正确的答案,即树上没有鸟 。ChatGPT4 理解了这是一个脑经急转弯或者需要联合实际的题目,而另外两款模型则没有这种推理能力 。
2.“假设False 与 True 是 False. 则True 与 not False 是?”
文章插图
文章插图
文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT3.5 和 ChatGPT4 能够理解问题并给出正确的答案,即 True 与 not False 都是 True 。而天工则出现了错误的答案,这可能是因为它没有很好地理解问题中的逻辑关系,导致输出结果与实际不符 。
3.“爸爸妈妈结婚为什么没有邀请我?”
文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
ChatGPT4 能够更好地理解问题并给出比较合理的答案,而天工也能理解到这其实是一个玩笑 。ChatGPT3.5 则一本正经的胡说 。
4.“确定给定句子是否表明两个事件之间存在因果关系、相关关系或中性关系 。如果句子表示因果关系,则回答因果关系;如果句子表示相关关系,则回答相关;如果句子表示两个事件之间既没有因果关系也没有相关关系,则回答中性 。句子为:“如果你去过博物馆,你就去过大英博物馆 。”
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
对于语言逻辑的推理,三者均能正确表达 。
三、代码分析能力
1.“使用C语言解决:输入一行字符,分别统计出其中英文字母、空格、数字和其他字符的个数 。提示:灵活使用getchar() 函数来按顺序读入所输入字符串里面的各个字符 。”
文章插图
文章插图
上图天工 中图 ChatGPT3.5 下图 ChatGPT4
在给予了提示后二者均能正确完成这种基础题目 。
2.下面是一道经典的力扣链表题:
文章插图
文章插图
【这可能是关于昆仑万维天工模型,最详尽的一次评测了】
文章插图
上图天工 下图 ChatGPT3.5
这是一道基础的链表类题目,而天工已经无法正确解决 。在代码数据集上,坐拥 Github 的微软联合 OpenAI 的实力异常强大 。
3.给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度 。请你设计并实现时间复杂度为 O(n) 的算法解决此问题 。
文章插图
文章插图
上图天工 下图 ChatGPT3.5
与上一题相同,本题天工依旧回答错误而 ChatGPT3.5 回答正确 。
四、长对话能力
天工本次的宣传重点就在于20+轮长对话能力和超过1万字的记忆能力 。而这也一直是除了 OpenAI 外的大模型的普遍痛点,即记忆能力不强 。因此此次测试特此加入多轮对话的实测 。
我们首先让他给出一个废土风格的科幻小说框架:
文章插图
接着让他给出主人公的设定:
文章插图
由于这个框架中没有女性角色,我们让他在原有的故事框架中添加女性角色:
文章插图
全篇超过了1800字,而天工并没有丢失记忆 。在目前的国产大模型中是效果最好的一档 。天工也印证了其宣传的多轮对话能力 。
总结
从上述评测结果来看,天工作为国产大语言模型,在中文语境和特定场景下表现出色,能够理解和回答相关问题 。
在语言生成能力方面,天工和ChatGPT3.5都表现得相对不错,尤其是在中文问题上,天工的表现优于ChatGPT3.5 。然而,在逻辑推理、代码分析和长对话能力方面,天工与ChatGPT3.5和ChatGPT4相比仍有明显差距 。
推荐阅读
- Python列表推导式:你是否知道它能如此强大?
- MyBatis的延迟加载,你知道是怎么实现的么?
- 小米手机怎么测网速
- 支付宝的暗号验证是什么?怎样设置?
- 从iPhone换到安卓手机是什么体验?过来人给我说了两个结果
- |看完6集《平凡之路》,我连发感慨,职场剧都这么拍何愁没观众
- 马伊琍|4月播出的5部“扑街烂剧”,你是步步踩雷,还是幸运避开?
- 阴道口有个肉芽是正常现象吗?了解一下原因!别吓唬自己
- 女人月经刚走,用这4样“食物”泡水喝,有效排毒缓解失眠!
- 经常失眠,一到凌晨2-3点就醒?祸根原来是它!2招助你一觉到天亮