本技术公开了一种基于双环策略的杂乱堆叠场景长序列物体抓放决策的方法,包含两个闭环策略,内环策略负责通过主动感知提高物体匹配的准确性,当机械臂抓取到物体后,该策略会通过旋转物体从多个视角进行感知,增加物体与目标场景内物体匹配的置信度。外环策略则负责执行抓取和放置操作,结合不确定的物体匹配和抓取能力进行抓取动作的预测,并根据当前物体的匹配情况决定是否直接放置到目标位置,或者将物体暂时放置在缓冲区,该方法利用预训练视觉基础模型进行物体匹配、内环策略学习和内环终止机制的实现,该方法对感知噪声的影响更加鲁棒,且通过强化学习闭环优化考虑了任务层级的最优性,从而达到更好的任务成功率和效率。
背景技术
目前,杂乱堆叠场景下长序列物体抓放是机器人操作领域一个非常重要的任务,也是服务机器人的一个关键技术。传统方法依赖于已知的物体模型,但是通常情况下用户很难提供这样的信息。近年来的工作开始研究未知物体模型的多物体长序列抓放任务,仅需给定一张初始场景的RGB-D图像和一张目标场景的RGB-D图像,探索如何将初始场景下的多物体重排成目标场景下的状态。
由于不存在物体模型,近期的一些工作主要利用基于学习的感知模块来实现初始场景和目标场景的匹配,从而生成场景表示。这些方法显著缩小了从已知物体到未知物体重排任务的感知差距。然而,这些系统在规划层面上的动作是通过启发式规则或监督学习得出的,较少关注任务层级的最优性。感知噪声会加剧这种情况,因为这些启发式规则可能基于错误的感知结果。此外,现有的系统在处理长任务序列的情况下,难以优化整体的任务完成效率。为了优化任务层级性能,强化学习是一个有用的工具。然而,直接通过强化学习长序列任务中的策略存在挑战。
现有技术存在如下技术问题:
1)现有技术生成的堆叠场景下长序列抓放序列效率普遍较低;
2)现有技术对未知物体的泛化性较差;
3)现有技术在未知物体模型时,对感知噪声的鲁棒性差;
4)现有技术不关注任务层级的最优性。
实现思路