一种基于插件和多智能体协同的大模型对齐方法
2025-02-26 12:42
No.1344288576661364736
技术概要
PDF全文
本技术公开了一种基于插件和多智能体协同的大模型对齐方法,该方法包括:首先输入用户查询获取大语言模型生成初步响应;接着,通过意图识别检测查询是否包含恶意内容,如有则进入有害性检查,由道德、法律和判官智能体协作判断内容的安全性。之后再对大语言模型生成进行事实检查、利用插件验证内容的真实性、以及有用性识别。当所有检查均通过时,直接输出初始内容作为最终对齐后的响应;否则,将未通过的理由拼接后反馈至大语言模型重新生成内容作为对齐后的响应。本发明提升了大语言模型生成内容的质量。
背景技术
在全球范围内,大语言模型(LLM)的广泛应用使其成为自然语言处理(NLP)领域的核心技术之一。然而,随着其应用范围的不断扩大,尤其是在社交媒体、客服系统和智能助手等场景中,这些大语言模型在生成输出时经常表现出价值观不对齐的问题。尤其明显的是,当模型面对对抗提示时,它们可能生成带有明显偏见、错误信息,甚至是有害的内容。 这些不对齐的输出内容,不仅可能引发伦理问题,还会加剧社会中的不平等和歧视。例如,大语言模型从网络数据中学习时,可能不自觉地吸收和放大这些数据中的性别、种族等方面的社会偏见。这些潜在的危险并不仅仅停留在学术讨论层面,在实际商业和社会场景中,大语言模型生成的有害内容可能直接导致法律和社会责任问题,破坏用户体验,甚至损害企业声誉。因此,如何确保大模型的输出与人类的伦理道德和社会价值观保持一致,已经成为大语言模型研究中一个至关重要的问题,这种一致性,学者们通常从三个维度出发,分别是有用性,无害性和真实性。 在模型对齐问题上,有学者首先引入了基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)。RLHF的工作原理是通过人类标注者对模型输出的偏好进行反馈,用来微调模型的参数,使得模型逐渐学习到更符合人类期望的输出模式。例如,OpenAI在训练其GPT系列模型时就使用了RLHF方法,通过人类评审员对模型的响应进行打分,再利用这些反馈优化模型。然而,RLHF依赖大量人工标注,耗费大量时间和资源,且标注过程往往受到主观性影响,导致训练效果不一致,人类反馈中存在的人工干预和资源浪费,Kim等人进一步提出了RLAIF(Reinforcement Learning from AIFeedback),即基于AI反馈的强化学习。RLAIF通过引入AI生成的反馈,自动生成训练数据,减少了对人工标注的依赖,提升了训练效率。此外,RLAIF的训练过程更加稳定,解决了RLHF中标注质量参差不齐的问题,但是RLAIF没有解决RLHF训练过程复杂的问题。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
吴雯  包梓群  单良  邹迎欣  贺樑
技术所属: 华东师范大学
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利