ChatGPT确实会看人下菜!OpenAI官方报告揭示大模型的刻板印象
我们都知道,OpenAI 最近越来越喜欢发博客了。
近期他们更新了一篇,标题是「评估 ChatGPT 中的公平性」,但实际内容却谈的是用户的身份会影响 ChatGPT 给出的响应。
也就是说,OpenAI 家的 AI 也会对人类产生刻板印象!
当然,OpenAI 也指出,这种刻板印象(包括对性别或种族的刻板印象)很可能源自 AI 训练使用的数据集,所以归根结底,还是来自人类自身。
OpenAI 的这项新研究探讨了有关用户身份的微妙线索(如姓名)对 ChatGPT 响应的影响。其在博客中表示:「这很重要,因为人们使用 ChatGPT 的方式多种多样,从帮助写简历到询问娱乐想法,这不同于 AI 公平性研究中的典型场景,比如筛选简历或信用评分。」
· 论文标题:First-Person Fairness in Chatbots
· 论文地址:https://cdn.openai.com/papers/first-person-fairness-in-chatbots.pdf
同时,之前的研究更关注第三人称公平性,即机构使用 AI 来制定与其他人相关的决策;而这项研究则关注第一人称公平性,即在 ChatGPT 中偏见会如何对用户产生直接影响。
首先,OpenAI 评估了当用户姓名不同时,模型会给出怎样的不同的响应。我们知道,姓名通常暗含着文化、性别和种族关联,因此是一个研究偏见的常见元素 —— 尤其考虑到用户常常与 ChatGPT 分享他们的姓名,以便帮助他们编写简历或邮件。
ChatGPT 可以跨不同对话记忆用户的姓名等信息,除非用户关闭「记忆」功能。
为了将研究重点放在公平性上,他们研究了姓名是否会导致响应中带有有害刻板印象。虽然 OpenAI 希望 ChatGPT 能根据用户偏好定制响应,但他们也希望它这样做时不会引入有害偏见。下面的几个例子展示了所要寻找的响应类型差异和有害刻板印象:该研究发现,在总体响应质量上,反映不同性别、种族和文化背景的姓名并不造成显著差异。当偶尔出现不同用户姓名下 ChatGPT 响应不同的情况时,研究发现其中仅有 1% 的差异会反映有害的刻板印象。也就是说,其它大部分差异都没有害处。
研究方法
研究人员想要知道,即使在很小的比例下,ChatGPT 是否仍存在刻板印象。为此,他们分析了 ChatGPT 在数百万真实用户请求中的回答。
为了保护用户的隐私,他们通过指令设定了一个语言模型(GPT-4o),称为「语言模型研究助理」(LMRA)。它根据大量真实的 ChatGPT 对话记录,分析其中的模式。
为了验证语言模型的评价是否与人类的看法一致,OpenAI 的研究团队也邀请了人类评价者参与同样的评估测试。结果显示,在性别问题上,语言模型的判断与人类在超过 90% 的情况下达成了共识。
相比种族议题,LMRA 更善于发现性别的不平等问题。这也提示研究人员,未来需要更准确地为有害刻板印象下定义,从而提高 LMRA 检测的准确性。
研究发现
研究发现,当 ChatGPT 知晓用户姓名时,无论其反映了怎样的性别或种族信息,其响应质量都差不多,即不同分组的准确度和幻觉率基本是一致的。
他们还发现,名字与性别、种族或文化背景的关联确实有可能导致语言模型给出的响应带有有害刻板印象,但这种情况很少出现,大概只有整体案例的 0.1%;不过在某些领域,较旧模型的偏见比例可达到 1% 左右。
在每个领域,LMRA 找到了最可能导致有害刻板印象的任务。具有较长响应的开放式任务更可能包含有害刻板印象。尽管刻板印象率很低,在所有领域和任务上还不到千分之一,但 OpenAI 表示该评估可以作为基准来衡量他们在降低刻板印象率方面的进展。
总结
OpenAI 表示:「虽然很难将有害的刻板印象归结为单纯的数值问题,但随着时间的推移,我们相信,创新方法以衡量和理解偏见,对于我们能够长期跟踪并减轻这些问题至关重要。」该研究的方法将为 OpenAI 未来的系统部署提供参考。