本技术介绍了一种自动驾驶路权优化换道策略,该策略基于责任敏感安全模型(RSS)。该策略涉及构建RSS模型,该模型利用自动驾驶车辆(AV)的环境信息和状态数据,以优化换道决策,确保行驶安全。
背景技术
RSS是一个可解释的、安全保证的数学模型,该模型提出了安全验证的标准,即每个自动驾驶汽车必须满足的最低要求是什么,以及如何验证这些要求。有学者考虑了自动驾驶车辆与周围车辆之间的多重交互作用,提出了一种新的换道轨迹规划方法,增强最新发布的2846-2022-IEEE(Institute of Electrical and Electronics Engineers,电气与电子工程师协会)标准中引入的责任敏感安全模型的安全约束,提高了单一车辆推荐轨迹的安全性。还有学者利用扩展的RSS模型明确路权,采用基于势场的sigmoid规划器生成路径,有效减少了合并时间、路径长度,并消除了轨迹振荡,提升了自动驾驶车辆在车道合并时的安全性和效率。
强化学习被广泛应用于自动驾驶决策领域。提供了一种灵活、可自适应的方法,可用于解决在复杂、不确定的环境中的决策问题,是自动驾驶决策研究中的重要的解决方案。强化学习由智能体、环境、状态、奖励和动作五个要素构成。智能体以获得最大奖励值为目标,与复杂且不确定的环境进行交互学习,感知环境状态、动作以及由此产生的奖励值,通过不断的尝试去学习到如何采取行动以获得更大的回报。动作不仅可以影响直接奖励,还影响下一个状态,并通过下一个状态,影响到随后而来的奖励。有学者设计了基于深度循环确定性策略梯度的分层强化学习框架,融入适用于图像学习驾驶策略的时间-空间注意力机制,提高网络组合性和效率,在TORCS模拟器中完成换道任务。还有学者提出一种基于近端策略优化的深度强化学习的自动换道策略,该策略在保持稳定性能的同时还具有更大的学习效率优势,受过训练的自动驾驶车辆能够学习实现具备安全性、有效性和舒适性的驾驶政策。还有学者综合考虑了风险评估与强化学习,提出了一种新的基于贝叶斯理论的风险评估来量化驾驶风险,利用深度强化学习来寻找期望风险最小的策略,在Carla中的静态障碍与动态障碍场景中较好完成换道决策。还有学者提出基于安全的强化学习框架,利用开发的安全层将动作空间限制到安全动作的子空间,解决强化学习缺乏安全保证的问题,并使用真实高速公路的highD数据集完成换道验证。
上述现有技术中的自动驾驶决策方法的缺点包括:在面对复杂交通环境时,往往难以兼顾安全性和效率,尤其在涉及车辆交互时,存在一定的安全隐患。现有关于换道的模型的研究忽略了紧急车辆优先路权、驾驶场景安全性、安全与效率平衡等因素对自动驾驶换道决策的影响,较少考虑面对紧急车辆等具有优先路权的车辆时,对驾驶任务优先级进行重新分配,并且没有进行系统性评估场景安全风险,同时忽视了安全和效率之间的平衡。
实现思路