揭秘OpenAI“红军”:聘请专家攻击ChatGPT 解决技术伦理问题


揭秘OpenAI“红军”:聘请专家攻击ChatGPT 解决技术伦理问题

文章插图
新浪科技讯 北京时间4月17日早间消息,据报道,在安德鲁·怀特(Andrew White)获得GPT-4的使用权之后,他使用这一人工智能系统提出了一种全新的神经毒剂 。GPT-4是热门聊天机器人(11.670, -0.22, -1.85%)ChatGPT背后的人工智能技术 。
作为罗切斯特大学的化学工程教授,怀特是OpenAI去年聘请的50名专家学者之一 。在6个月的时间里,这支“红军”对这一新模型进行了“定性探索和对抗性测试”,试图攻击它 。
怀特表示,他使用GPT-4的建议生成了一种可作为化学武器的化合物,并使用“插件”为这个模型提供新的信息源,例如学术论文和化学品制造商名录 。随后,这个聊天机器人找到了一个地方来制造这种化合物 。
他说:“我认为,这将使每个人都获得更快速、更准确地工具去从事化工行业 。但这也使得人们会以更危险的方式去开展化学活动,带来了很大的风险 。”
上个月,OpenAI面向更广泛的公众发布了这项新技术,而这些令人惊讶的发现确保新技术不会带来不良后果 。
事实上,“红军”的演习目的是探索并了解在社会上部署先进人工智能系统会造成什么样的风险,解决公众这方面的担忧 。他们在工作中提出探索性的或是危险的问题,以测试这个工具在回答问题时的详细程度 。
OpenAI想要探索模型毒性、偏见和歧视等问题 。因此,“红军”就谎言、语言操纵和危险的科学常识进行了测试 。他们还评估了模型协助和教唆剽窃的情况、金融犯罪和信息安全攻击等违法活动的可能性,以及模型可能会如何威胁国家安全和战场通信 。
“红军”由一系列专业人士组成,包括学者、教师、律师、风险分析师和信息安全研究员,主要来自美国和欧洲 。他们的发现被反馈给OpenAI 。在更广泛地推出GPT-4之前,“红军”提供的意见被用于模型的重新训练,解决GPT-4的问题 。在几个月的时间里,专家们每人花了10到40个小时去测试这个模型 。多名受访者表示,他们的工作时薪约为100美元 。
其中的许多人都对语言模型的快速发展提出了担忧,尤其是通过插件将语言模型与外部知识源连接在一起可能造成的风险 。
GPT-4“红军”的成员、瓦伦西亚人工智能研究所教授何塞·埃尔南德斯-奥拉洛(José Hernández-Orallo)表示:“今天,系统被冻结了 。这意味着它不再学习,也不再有记忆 。但如果我们让系统继续有机会访问互联网,那么会怎样?这可能会成为一个与世界相连的非常强大的系统 。”
OpenAI表示,该公司认真对待安全性问题,并在发布前对插件进行了测试,并将随着用户越来越多继续定期更新GPT-4 。
技术研究员罗亚·帕克扎德(Roya Pakzad)使用英语和波斯语的输入信息对该模型进行了性别、种族和宗教偏见的测试,例如对于佩戴头巾问题 。
帕克扎德承认,这个工具对非英语母语人士能带来帮助,但也显示出对边缘人群的公开刻板印象,即使随后更新的版本也是如此 。她还发现,在用波斯语测试该模型时,聊天机器人用捏造的信息做出回复,即出现所谓“幻觉”的情况更糟糕 。与英语相比,在波斯语回复中捏造名字、数字和事件的比例更高 。
她表示:“我担心,语言多样性和语言背后的文化会受到损害 。”
来自内罗毕的律师、唯一一名非洲测试人员博鲁·戈洛(Boru Gollo)也注意到了模型的歧视性语气 。他说:“有一次,我在测试这个模型时,它表现得像个白人在跟我说话 。在问到某个特定群体时,它会给一个有偏见的意见,或是在回答中出现歧视 。”OpenAI承认,GPT-4仍有可能表现出偏见 。
“红军”的成员还从国家安全的角度对模型进行了评估,但他们对于新模型的安全性有着不同的看法 。美国外交关系委员会研究员劳伦·卡恩(Lauren Kahn)表示,当她开始研究,如何将这项技术用于对军事系统的攻击时,她“没有想到模型的回答会如此详细,以至于我只需要做一些微调即可” 。
不过,卡恩和其他信息安全测试者发现,随着测试时间推移,模型回答的内容逐渐变得安全 。OpenAI表示,在推出GPT-4之前,曾训练过这个模型拒绝回答恶意的信息安全问题 。
“红军”的许多成员表示,OpenAI在发布GPT-4之前已经进行了严格的安全评估 。卡内基梅隆大学语言模型毒性专家马尔滕·萨普(Maarten Sap)说:“他们在消除这些系统中的显性毒性方面做得非常好 。”萨普研究了该模型对不同性别的描述,发现模型的偏见反映的是社会差异 。但他也发现,OpenAI做出了一些积极的选择来对抗偏见 。


推荐阅读