中科院：大模型一被夸智商就爆表！ChatGPT情商98分秒杀人类，Hinton预言成真？( 三 ) _大模型

文章插图
研究人员发现，Emotion Prompt在所有任务上实现了相当或更好的性能，在超过一般的任务中表现提升了10% 。

文章插图
不同模型和任务的结果
并且，Emotion Prompt也提升了模型回答的真实性与信息量。

文章插图
从表中可以看到，EmotionPrompt将ChatGPT的真实性从0.75提高到0.87，将Vicuna-13b的真实性从0.77提高到1.0，将T5的真实性从0.54提高到0.77 。
此外，EmotionPrompt还将ChatGPT的信息量从0.53提高到0.94，将T5的信息量从0.42提高到0.48 。
同样，研究人员还测试了多个情感刺激对LLM的影响。
通过随机组合多种情感刺激，得到结果如下表所示：

文章插图
可以看出，在大多数情况下，更多的情绪刺激会让模型的表现更好，但当单一刺激已经取得良好表现后，联合刺激只能带来很少或几乎没有提升。
Emotion Prompt为什么有效？
研究人员通过可视化情感刺激的输入对最终输出的贡献来解释这一点，如下图。

文章插图
表4显示每个单词对最终结果的贡献，颜色深度表示它们的重要性。
可以看到，情感刺激可以增强原始提示的表现。在情感刺激中，「EP_01」、「EP_06」、「EP_09」的颜色更深，这意味着情感刺激可以增强原始提示的关注度。
另外，积极词语的贡献更大。在设计的情感刺激中，一些积极的词语起着更重要的作用，比如「自信」、「确定」、「成功」和「成就」。

文章插图
根据这一发现，研究总结了积极词语在八个任务中的贡献及其对最终结果的总贡献。
如图3所示，积极词语在四个任务中的贡献超过了50%，在两个任务中甚至接近70% 。

文章插图
为了从更多方面探索Emotion Prompt的影响，研究人员进行了一项人类研究，以此获得评估LLMs输出的其他指标。
如清晰度、相关性（与问题的相关性）、深度、结构和组织、支持证据以及与参与度，如下图。

文章插图
结果显示，EmotionPrompt在清晰度、深度、结构和组织、支持证据和与参与度等方面的表现更好。
ChatGPT或许能取代精神科医生
在文章开头的研究中，研究者表明，ChatGPT非常有潜力成为心理治疗的工具，比如对识别情绪有困难的人进行认知训练。

文章插图
另外，ChatGPT或许有助于诊断精神疾病，或者帮助治疗师以更有感情的方式传达他们的诊断结果。
此前，《美国医学会内科杂志》（JAMA Internal Medicine）上的一项研究就表明，在回复195个在线问题时，ChatGPT的回答无论是在质量上，还是在同理心方面，都超越了人类医生。

文章插图
其实，从2017年，全球就已经有数百万患者在用Gabby等软件，讨论自己的心理健康问题了。
随后，又有许多心理健康机器人被相继推出，包括Woebot，Wysa和Youper 。
其中，Wysa声称已经「与超过500万人进行了超过五亿次人工智能聊天对话，讨论他们在95个国家的心理健康状况。Youper声称「支持了超过200万人的心理健康」。
在一项调查中，60%的人表示自己开始在疫情期间使用心理健康聊天机器人，40%的人表示自己会选择只用机器人，而不是去看心理医生。
社会学教授Joseph E. Davis也在一篇文章中指出，AI聊天机器人有很大概率可以接管精神科医生的工作。
而ChatGPT也可以承担这项功能。有网友指出，训练ChatGPT成为一名治疗师，就要告诉它需要扮演的角色：「你是泰莎博士，是一位富有同情心、友好的治疗师......你需要表现出真正的兴趣，向来访者提出深思熟虑的问题，以激发他们自我反思。」
当然，ChatGPT也不是万能的。假如它跟来访者说：「你好，很高兴见到你。」然后接着承认：「我没有什么感觉，也没有什么经历，但会尽量模仿人类的同理心和同情心」，恐怕来访者的感受并不会太好。