本技术公开了一种基于插件和多智能体协同的大模型对齐方法,该方法包括:首先输入用户查询获取大语言模型生成初步响应;接着,通过意图识别检测查询是否包含恶意内容,如有则进入有害性检查,由道德、法律和判官智能体协作判断内容的安全性。之后再对大语言模型生成进行事实检查、利用插件验证内容的真实性、以及有用性识别。当所有检查均通过时,直接输出初始内容作为最终对齐后的响应;否则,将未通过的理由拼接后反馈至大语言模型重新生成内容作为对齐后的响应。本发明提升了大语言模型生成内容的质量。
背景技术
在全球范围内,大语言模型(LLM)的广泛应用使其成为自然语言处理(NLP)领域的核心技术之一。然而,随着其应用范围的不断扩大,尤其是在社交媒体、客服系统和智能助手等场景中,这些大语言模型在生成输出时经常表现出价值观不对齐的问题。尤其明显的是,当模型面对对抗提示时,它们可能生成带有明显偏见、错误信息,甚至是有害的内容。
这些不对齐的输出内容,不仅可能引发伦理问题,还会加剧社会中的不平等和歧视。例如,大语言模型从网络数据中学习时,可能不自觉地吸收和放大这些数据中的性别、种族等方面的社会偏见。这些潜在的危险并不仅仅停留在学术讨论层面,在实际商业和社会场景中,大语言模型生成的有害内容可能直接导致法律和社会责任问题,破坏用户体验,甚至损害企业声誉。因此,如何确保大模型的输出与人类的伦理道德和社会价值观保持一致,已经成为大语言模型研究中一个至关重要的问题,这种一致性,学者们通常从三个维度出发,分别是有用性,无害性和真实性。
在模型对齐问题上,有学者首先引入了基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)。RLHF的工作原理是通过人类标注者对模型输出的偏好进行反馈,用来微调模型的参数,使得模型逐渐学习到更符合人类期望的输出模式。例如,OpenAI在训练其GPT系列模型时就使用了RLHF方法,通过人类评审员对模型的响应进行打分,再利用这些反馈优化模型。然而,RLHF依赖大量人工标注,耗费大量时间和资源,且标注过程往往受到主观性影响,导致训练效果不一致,人类反馈中存在的人工干预和资源浪费,Kim等人进一步提出了RLAIF(Reinforcement Learning from AIFeedback),即基于AI反馈的强化学习。RLAIF通过引入AI生成的反馈,自动生成训练数据,减少了对人工标注的依赖,提升了训练效率。此外,RLAIF的训练过程更加稳定,解决了RLHF中标注质量参差不齐的问题,但是RLAIF没有解决RLHF训练过程复杂的问题。
实现思路