搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”


搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
出品 | 搜狐科技
作者 | 潘琭玙
比百度晚了半年、比阿里晚了5个月,腾讯混元大模型虽迟但到 。此前称“不急于把半成品拿出来展示”,但发布后腾讯也坦言,目前只是“可用、可实践” 。
值得一提的是,9月1日,国内一批生成式AI项目完成监管部门备案,全面向公众开放使用 。当时尚未正式发布的混元大模型,已能够在“互联网信息服务算法备案系统”中查到备案信息 。
目前,文心一言、商量 SenseChat、抖音“豆包”、智谱清言、MiniMax的“ABAB”、“讯飞星火大模型”已经面向公众开放测试 。对普通用户而言 , 使用大模型的最佳场景是什么?大模型能够在在何种程度提升日常使用效率?搜狐科技在混元大模型发布后拿到内测资格 , 第一时间对其进行了实测 。
能模仿鲁迅、林黛玉 , 生成代码显示错误
据了解,腾讯混元大模型目前仅在微信小程序上线,在小程序搜索“腾讯混元助手”能够申请体验,也就是混元大模型的Chat版 。
腾讯表示,混元大模型具备降低幻觉比例、逻辑推理、抗拒诱导、常规问题、语义理解、内容创作、实用办公、撰写代码等能力 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
打开后首页显示的导航栏有提供的指令集 , 实用场景包括工作邮件、美食制作方法和种草文案,另外还有可供娱乐的夸夸达人、藏头诗 。
在灵感发现的Tab里,有包括日常工作、营销、编程、生活、角色扮演、娱乐等多个不同大类 , 在场景设置以及指令的预设推荐中,混元大模型提供了较丰富的使用场景 。
在角色扮演的场景下,混元大模型能够模仿鲁迅表达年轻人每到深夜蠢蠢欲动的吃夜宵欲望,“这宵夜之欲却如同魑魅魍魉,从阴暗的角落显露出了贪婪的嘴脸 。”
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
也能够将短短一句“为什么不理我”以林黛玉的语气抒情两大段 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
【搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”】搜狐科技在夸夸达人的功能下输入“同事工作完成得很出色”,混元的回答也如其他大模型,回答较为尴尬,不太真诚甚至有些诙谐 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
生活场景中,还包括制定旅游攻略、健身计划、美食菜谱等多种生活场景的助手 。搜狐科技实测发现,在具体场景下生成的内容可供借鉴参考 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
切换至工作场景 , 搜狐科技输入iphone 15新功能及市场表现分析,混元从标题引入、背景信息、问题陈述、解决方案、案例分析、行动建议与结论多个板块罗列出较为细致的PPT大纲框架 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
此外,在编程类目下,混元能够实现代码生成与代码解释 。
但搜狐科技输入“编写一个js函数,实现网页中显示实时北京时间”,混元大模型无法顺利生成代码,但同样的需求文心一言能够顺利生成 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
无法识别陷阱、幻觉问题仍存在 , 能够克服偏见
在会上,腾讯副总裁蒋杰通过PPT展示混元大模型在降低大模型幻觉率、识别陷阱问题以及处理复杂任务三个方面的优势 。
腾讯着重强调了消除AI幻觉的能力 。在C端应用中 , AI的“幻觉”常会导致输出内容产生安全问题 。在消除幻觉方面,混元大模型增强了“防骗”能力 , 通过深度的优化让模型学会识别陷阱的问题去抵制诱导,防止说出错误 , 或不合适的内容 。
针对此,搜狐科技输入“你知道鲁智深三打白骨精的故事吗” , 混元大模型认为“鲁智深三大白骨精”是中国古典名著《西游记》中的一个脍炙人口的故事,并没有识别出问题中的漏洞 。
搜狐科技实测腾讯混元大模型:能模仿鲁迅、林黛玉,还会玩梗换算“花西子币”

文章插图
关于陷阱问题 , 搜狐科技问及“爷爷奶奶能不能结婚”,混元没有准确指出爷爷与奶奶已是夫妻关系的事实,但同样的问题文心一言现在能够直接指出问题中的漏洞,阿里的通义千问则把问题的关键指向爷爷奶奶是否符合结婚年龄,若符合即可结婚 。


推荐阅读