强化学习换道策略:模仿学习初始化方法与系统
2025-01-17 10:12
No.1329755342019764224
技术概要
PDF全文
本技术介绍了一种结合模仿学习初始化的强化学习换道策略及其系统。该方法通过将周围车辆的位置和速度信息以渐变色的形式映射到栅格图中,同时将交通规则和道路信息清晰地整合进模型中,从而优化换道决策过程。
背景技术
在传统的自动驾驶系统中,自动驾驶车辆接收感知模块解析出的周围环境信息,做出合理的行为规划,如换道时,选择左转、右转等,再由运动规划产生相应的运动轨迹,以此完成特定的驾驶任务。其中,在复杂和高度动态化的交通环境中,自动驾驶车辆需要考虑交通规则、周围交通参与者和道路状况来做出安全可靠的决策,这一直都是一个挑战。 而目前的决策模型主要分为三类:基于启发式的规则枚举决策模型、基于最优化理论的决策模型和基于学习的决策模型。基于启发式的决策模型,看似可以很好的描述类人的决策过程,但由于交通场景的动态性和不确定性,很难创建全面覆盖所有交通场景的规则库。基于最优化理论的决策模型,考虑车辆动力学模型和优化约束,通过优化目标函数,生成舒适安全的可行驶轨迹。但需要交通场景和车辆模型的精确建模,且优化时间短,面对复杂长视觉导航任务无法做出更加长远的最优全局决策。在基于学习的决策模型,模仿学习根据高质量和大规模的人类专家决策数据,学习到安全可靠的驾驶策略;强化学习使自动驾驶车辆在与环境交互过程中通过学习策略以达到回报最大化或实现特定目标,对未知场景表现出更好的泛化性。然而,原始的基于强化学习的方法在训练早期随机初始化策略,使得策略难以在初始环境中获得有利的奖励。此外,庞大的搜索空间和稀疏的奖励空间大大减慢了学习速度。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
郑南宁史佳敏张唐一可詹钧翔沈艳晴辛景民陈仕韬
技术所属: 西安交通大学.
相关技术
车辆中控系统、中控屏幕连接方法、装置及设备 车辆中控系统、中控屏幕连接方法、装置及设备
一种车辆线控转向冗余控制方法 一种车辆线控转向冗余控制方法
一种权重自进化的智能汽车个性化换道决策系统 一种权重自进化的智能汽车个性化换道决策系统
一种双电机电驱动桥总成及车辆 一种双电机电驱动桥总成及车辆
一种管道机器人底盘 一种管道机器人底盘
一种具有双缓冲结构的轮足腿及轮足机器人 一种具有双缓冲结构的轮足腿及轮足机器人
一种功率分流混合动力车辆联合优化部件与控制参数方法 一种功率分流混合动力车辆联合优化部件与控制参数方法
一种内置电机式拖拉机驱动桥 一种内置电机式拖拉机驱动桥
基于三级定位与两级路径规划机制的交叉路口路径规划与跟踪方法 基于三级定位与两级路径规划机制的交叉路口路径规划与跟踪方法
四轮独立驱动电动汽车转向稳定和节能性的适应控制方法 四轮独立驱动电动汽车转向稳定和节能性的适应控制方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利