基于条件多模态提示的机器人精细化目标定位方法及装置
2025-02-24 14:24
No.1343589312775856128
技术概要
PDF全文
本技术涉及计算机视觉技术领域,提供了一种基于条件多模态提示的机器人精细化目标定位方法及装置,该方法包括:对图像和文本分别进行多次交叉编码,得到目标视觉特征和目标语言特征;在每次交叉编码中,根据第i个视觉特征确定第一提示引导,结合第i个视觉特征得到第i+1个语言特征;根据第i个语言特征确定第二提示引导,并得到第i+1个视觉特征;将映射后的视觉特征和映射后的语言特征进行交叉注意力计算,得到新的视觉特征和新的语言特征,以供机器人调节运动姿态。本发明所述方法结合了早期和晚期融合的优势,能够根据自由形式的语言表达实现机器人的精确细粒度目标定位,提高了机器人精细化目标定位效率和准确率。
背景技术
随着人工智能和计算机视觉技术的快速发展,视觉定位技术已经取得了显著的进步,且广泛应用于自动驾驶、智能制造、机器人和无人机导航等领域。 通过视觉定位技术,机器人能够更自然地理解并响应用户的操作,这种自然性不仅体现在机器人对用户动作的准确捕捉上,还体现在机器人对用户意图的深入理解上,例如,机器人可以通过视觉定位技术来捕捉患者的运动轨迹,并根据患者的康复需求进行个性化的运动辅助。 相关技术中,通常采用两阶段(包括候选生成和跨模态匹配)视觉定位模型探索更有效的跨模态交互,或者在可解释推理方式中选择最佳匹配的候选,从而实现目标检测和定位,但两阶段视觉定位模型为串行架构,模型训练效率受限,且过于依赖候选生成阶段的训练效果,导致模型鲁棒性低;而采用一阶段视觉定位方法进行目标视觉定位时,先通过两类独立的编码器分别提取对应语言特征和视觉特征,再通过聚合模块将两类特征进行跨模态融合,融合后的特征表征能力有限,只能实现目标粗粒度定位(如输出为定位框),难以满足对机器人对目标精细化定位(如输出为像素级坐标)的要求。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张宇佳  吴君娴  李全明  孙世颖  赵晓光  陈程  耿超  王玉凯
技术所属: 中国科学院自动化研究所  北方工业大学
相关技术
变压器呼吸器变色检测方法、装置、系统及电子设备 变压器呼吸器变色检测方法、装置、系统及电子设备
基于机器视觉和AR的虫害检测与管理系统 基于机器视觉和AR的虫害检测与管理系统
一种电路板的故障快速检测方法、系统及存储介质 一种电路板的故障快速检测方法、系统及存储介质
遥感影像检测方法、装置、电子设备及存储介质 遥感影像检测方法、装置、电子设备及存储介质
一种基于在网计算的流表压缩方法 一种基于在网计算的流表压缩方法
一种基于分段信道估计的通感一体化系统干扰消除方法 一种基于分段信道估计的通感一体化系统干扰消除方法
一种基于上半身姿态的驾驶员情绪状态检测方法及系统 一种基于上半身姿态的驾驶员情绪状态检测方法及系统
一种引入RBU的轻量化皮革表面缺陷显著目标检测方法 一种引入RBU的轻量化皮革表面缺陷显著目标检测方法
一种基于金字塔的SAR图像相干斑抑制方法 一种基于金字塔的SAR图像相干斑抑制方法
一种考虑多层级特征的多类别点云异常检测方法及系统 一种考虑多层级特征的多类别点云异常检测方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利