本技术介绍了一种利用深度强化学习技术实现的自动驾驶车道保持决策系统。该系统通过以下步骤实现:首先,构建状态和动作空间,并设计复合奖励函数,优化经验回放算法;其次,设定训练参数,收集训练数据,训练并测试深度强化学习模型。该方法在车道保持任务中显示出卓越的性能,能够适应不同的天气和交通状况,增强自动驾驶车辆在复杂环境下的车道保持能力,具有广泛的应用潜力。
背景技术
车辆保持决策在道路交通的安全与效率方面起着至关重要的作用。然而,注意力分散或驾驶经验不足等人为因素往往会导致不合理的换道行为。近年来,随着自动驾驶技术迅速发展,其展现出在提升交通系统安全性和运行效率方面的巨大潜力。
自动驾驶中的车道保持决策模型成为交通领域的研究热点,并取得了显著的研究成果。这些模型主要分为两类:传统车道保持模型和基于机器学习的车道保持模型。传统车道保持模型基于汽车运动学和动力学原理,通过控制算法计算出方向盘转角、油门与制动踏板的开合度等关键控制参数,并将这些参数发送至车辆控制平台,以控制车辆的行驶方向和速度。随后,根据车辆当前实际位置与预期位置之间的误差调整控制信号:当误差在允许范围内时,使用较小的控制增量;当误差超出范围时,使用较大的控制增量,从而迅速调整系统状态,确保控制精度和稳定性。然而,这种模型在应对动态环境变化时,实时计算需求难以满足,且测量较为复杂。另一类方法是基于机器学习中的深度强化学习算法。车道保持需要通过一系列动作到达目的地,当前动作的表现影响最终目标,深度强化学习算法非常适合处理这种问题。与传统模型不同,深度强化学习通过车载摄像头捕获道路图像,并将图像输入网络进行训练,无需建立复杂的约束优化模型。训练好的模型能将当前状态作为输入,直接输出控制动作,指导车辆在车道内安全、稳定行驶。目前,基于深度强化学习的车道保持模型通常只控制车辆的单一动作,需要与传统模型结合使用才能完成完整的车道保持过程。简单的奖励函数会降低模型在车道保持控制中的学习能力,且仅靠奖励函数无法完全保证安全,模型仍可能出现不安全动作,增加碰撞风险。现有的自动驾驶车道保持决策方法存在模型设计复杂、计算效率低的问题。此外,这些方法在实际车辆控制工程中容易出现碰撞风险,难以得到有效应用。
实现思路