揭秘OpenAI“红军”：聘请专家攻击ChatGPT 解决技术伦理问题 _OpenAI

文章插图
新浪科技讯北京时间4月17日早间消息，据报道，在安德鲁·怀特（Andrew White）获得GPT-4的使用权之后，他使用这一人工智能系统提出了一种全新的神经毒剂。GPT-4是热门聊天机器人(11.670, -0.22, -1.85%)ChatGPT背后的人工智能技术。
作为罗切斯特大学的化学工程教授，怀特是OpenAI去年聘请的50名专家学者之一。在6个月的时间里，这支“红军”对这一新模型进行了“定性探索和对抗性测试”，试图攻击它。
怀特表示，他使用GPT-4的建议生成了一种可作为化学武器的化合物，并使用“插件”为这个模型提供新的信息源，例如学术论文和化学品制造商名录。随后，这个聊天机器人找到了一个地方来制造这种化合物。
他说：“我认为，这将使每个人都获得更快速、更准确地工具去从事化工行业。但这也使得人们会以更危险的方式去开展化学活动，带来了很大的风险。”
上个月，OpenAI面向更广泛的公众发布了这项新技术，而这些令人惊讶的发现确保新技术不会带来不良后果。
事实上，“红军”的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险，解决公众这方面的担忧。他们在工作中提出探索性的或是危险的问题，以测试这个工具在回答问题时的详细程度。
OpenAI想要探索模型毒性、偏见和歧视等问题。因此，“红军”就谎言、语言操纵和危险的科学常识进行了测试。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性，以及模型可能会如何威胁国家安全和战场通信。
“红军”由一系列专业人士组成，包括学者、教师、律师、风险分析师和信息安全研究员，主要来自美国和欧洲。他们的发现被反馈给OpenAI 。在更广泛地推出GPT-4之前，“红军”提供的意见被用于模型的重新训练，解决GPT-4的问题。在几个月的时间里，专家们每人花了10到40个小时去测试这个模型。多名受访者表示，他们的工作时薪约为100美元。
其中的许多人都对语言模型的快速发展提出了担忧，尤其是通过插件将语言模型与外部知识源连接在一起可能造成的风险。
GPT-4“红军”的成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛（José Hernández-Orallo）表示：“今天，系统被冻结了。这意味着它不再学习，也不再有记忆。但如果我们让系统继续有机会访问互联网，那么会怎样？这可能会成为一个与世界相连的非常强大的系统。”
OpenAI表示，该公司认真对待安全性问题，并在发布前对插件进行了测试，并将随着用户越来越多继续定期更新GPT-4 。
技术研究员罗亚·帕克扎德（Roya Pakzad）使用英语和波斯语的输入信息对该模型进行了性别、种族和宗教偏见的测试，例如对于佩戴头巾问题。
帕克扎德承认，这个工具对非英语母语人士能带来帮助，但也显示出对边缘人群的公开刻板印象，即使随后更新的版本也是如此。她还发现，在用波斯语测试该模型时，聊天机器人用捏造的信息做出回复，即出现所谓“幻觉”的情况更糟糕。与英语相比，在波斯语回复中捏造名字、数字和事件的比例更高。
她表示：“我担心，语言多样性和语言背后的文化会受到损害。”
来自内罗毕的律师、唯一一名非洲测试人员博鲁·戈洛（Boru Gollo）也注意到了模型的歧视性语气。他说：“有一次，我在测试这个模型时，它表现得像个白人在跟我说话。在问到某个特定群体时，它会给一个有偏见的意见，或是在回答中出现歧视。”OpenAI承认，GPT-4仍有可能表现出偏见。
“红军”的成员还从国家安全的角度对模型进行了评估，但他们对于新模型的安全性有着不同的看法。美国外交关系委员会研究员劳伦·卡恩（Lauren Kahn）表示，当她开始研究，如何将这项技术用于对军事系统的攻击时，她“没有想到模型的回答会如此详细，以至于我只需要做一些微调即可” 。
不过，卡恩和其他信息安全测试者发现，随着测试时间推移，模型回答的内容逐渐变得安全。OpenAI表示，在推出GPT-4之前，曾训练过这个模型拒绝回答恶意的信息安全问题。
“红军”的许多成员表示，OpenAI在发布GPT-4之前已经进行了严格的安全评估。卡内基梅隆大学语言模型毒性专家马尔滕·萨普（Maarten Sap）说：“他们在消除这些系统中的显性毒性方面做得非常好。”萨普研究了该模型对不同性别的描述，发现模型的偏见反映的是社会差异。但他也发现，OpenAI做出了一些积极的选择来对抗偏见。

揭秘OpenAI“红军”：聘请专家攻击ChatGPT 解决技术伦理问题

推荐阅读

魔方怎样拼好六个面最简单的方法魔方怎样拼好六个面

「王者天黑君」QG很难受，alan可能重回赛场，Gemini谈新版本影响：AG受益最大

搞笑奇葩菌丈夫忍不住抱怨妻子：明天别来蹭饭了，笑话：丈母娘正忙着炖鱼

这才是眼霜的正确涂法！怎样正确使用眼霜

『大众网』助力开学！泰山检察信息技术研究所向学校提供双目动态人脸识别一体机

七宝传奇之氽来神钟七宝奇迹

上海嘉定|@嘉定人燃气即日起调价

嘻哈段子忽然一条特别凶的狗向我追来，十条笑话：早晨起来去晨跑

『皮肤科』脖子皮肤长出小肉疙瘩，医生提醒，不能任其发展

男性健康|肾不好的人，睡觉时有什么表现？

【中新网】普京解除俄内务部及紧急情况部四名将军的职务

美国：中国试剂盒被美国“嫌弃”！美媒：马云捐的试剂盒美国坚持不用！

|“补觉”的真正含义：早睡而非晚起

股东|先进数通：股东银汉创投拟减持不超过4.19%公司股份

「武汉」山东货车司机在武汉卸完菜露天吃盒饭

新华国际|让古巴观众热泪盈眶又赞不绝口……，是什么

理想|台湾车评人花式夸赞大陆“新势力”：你想不到自主品牌强到什么地步

什么笔记本玩游戏好(适合玩大型游戏的笔记本电脑)

吴京|他是吴京力挺的演员，至今只拍过五部戏，每一部都成永恒的经典

怎样让自己生活中坚持聆听内心的声音不受其他人干扰