本技术介绍了一种结合模仿学习初始化的强化学习换道策略及其系统。该方法通过将周围车辆的位置和速度信息以渐变色的形式映射到栅格图中,同时将交通规则和道路信息清晰地整合进模型中,从而优化换道决策过程。
背景技术
在传统的自动驾驶系统中,自动驾驶车辆接收感知模块解析出的周围环境信息,做出合理的行为规划,如换道时,选择左转、右转等,再由运动规划产生相应的运动轨迹,以此完成特定的驾驶任务。其中,在复杂和高度动态化的交通环境中,自动驾驶车辆需要考虑交通规则、周围交通参与者和道路状况来做出安全可靠的决策,这一直都是一个挑战。
而目前的决策模型主要分为三类:基于启发式的规则枚举决策模型、基于最优化理论的决策模型和基于学习的决策模型。基于启发式的决策模型,看似可以很好的描述类人的决策过程,但由于交通场景的动态性和不确定性,很难创建全面覆盖所有交通场景的规则库。基于最优化理论的决策模型,考虑车辆动力学模型和优化约束,通过优化目标函数,生成舒适安全的可行驶轨迹。但需要交通场景和车辆模型的精确建模,且优化时间短,面对复杂长视觉导航任务无法做出更加长远的最优全局决策。在基于学习的决策模型,模仿学习根据高质量和大规模的人类专家决策数据,学习到安全可靠的驾驶策略;强化学习使自动驾驶车辆在与环境交互过程中通过学习策略以达到回报最大化或实现特定目标,对未知场景表现出更好的泛化性。然而,原始的基于强化学习的方法在训练早期随机初始化策略,使得策略难以在初始环境中获得有利的奖励。此外,庞大的搜索空间和稀疏的奖励空间大大减慢了学习速度。
实现思路