强化学习换道策略：模仿学习初始化方法与系统

123技术园

首页 / 技术内容

2025-01-17 10:12

No.1329755342019764224

技术概要

PDF全文

本技术介绍了一种结合模仿学习初始化的强化学习换道策略及其系统。该方法通过将周围车辆的位置和速度信息以渐变色的形式映射到栅格图中，同时将交通规则和道路信息清晰地整合进模型中，从而优化换道决策过程。

背景技术

在传统的自动驾驶系统中，自动驾驶车辆接收感知模块解析出的周围环境信息，做出合理的行为规划，如换道时，选择左转、右转等，再由运动规划产生相应的运动轨迹，以此完成特定的驾驶任务。其中，在复杂和高度动态化的交通环境中，自动驾驶车辆需要考虑交通规则、周围交通参与者和道路状况来做出安全可靠的决策，这一直都是一个挑战。而目前的决策模型主要分为三类：基于启发式的规则枚举决策模型、基于最优化理论的决策模型和基于学习的决策模型。基于启发式的决策模型，看似可以很好的描述类人的决策过程，但由于交通场景的动态性和不确定性，很难创建全面覆盖所有交通场景的规则库。基于最优化理论的决策模型，考虑车辆动力学模型和优化约束，通过优化目标函数，生成舒适安全的可行驶轨迹。但需要交通场景和车辆模型的精确建模，且优化时间短，面对复杂长视觉导航任务无法做出更加长远的最优全局决策。在基于学习的决策模型，模仿学习根据高质量和大规模的人类专家决策数据，学习到安全可靠的驾驶策略；强化学习使自动驾驶车辆在与环境交互过程中通过学习策略以达到回报最大化或实现特定目标，对未知场景表现出更好的泛化性。然而，原始的基于强化学习的方法在训练早期随机初始化策略，使得策略难以在初始环境中获得有利的奖励。此外，庞大的搜索空间和稀疏的奖励空间大大减慢了学习速度。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

郑南宁史佳敏张唐一可詹钧翔沈艳晴辛景民陈仕韬

技术所属：西安交通大学.

相关技术

车辆中控系统、中控屏幕连接方法、装置及设备  车辆中控系统、中控屏幕连接方法、装置及设备 
 本发明涉及车辆控制技术领域，公开了车辆中控系统、中控屏幕连接方法、装置及设备，系统应用于目标车辆的驾驶舱，系统包括中控屏幕、中控主机以及屏幕底座；中控屏幕的背部设置有磁吸组件；中控屏幕适于与屏幕底座磁吸连接；中控屏幕中设置有第一无线通信组件；中控主机中设置有第二无线通信组件；中控屏幕与中控主机无线通信连接；中控主机内部署有数据处理设备；当中控屏幕接收到触发操作时，将触发操作对应的操作信息发送给中控主机；中控主机中的数据处理设备对操作信息进行处理后生成显示信息返回给中控屏幕，以显示触发操作对应的画面。上述方案，不需要增设额外的平板电脑就可以实现车内任意位置的乘客对车的控制，避免了资源的浪费。
一种车辆线控转向冗余控制方法  一种车辆线控转向冗余控制方法 
 本发明公开了一种车辆线控转向冗余控制方法，属于汽车转向的技术领域，包括:判断当前车辆是否启动冗余控制，当启动冗余控制来实现车辆的转向时，车轮进入差动转向模式一，同时判断车辆转角是否与车辆期望转角一致，若一致，则车轮保持差动转向模式一，若不一致，则判断当前车辆转角是否发生变化，若不变化，则车轮进入差动转向模式二，若变化，则车轮进入差动转向模式三；在车轮进入差动转向模式一、二或者三时，根据车辆期望转角，利用模糊滑模控制器和下层控制器输出对应转向模式下最优的左前轮驱动力和右前轮驱动力。本发明在线控转向系统失效或者转向系统内关键部件出现故障时，使汽车能够平稳转向。
一种权重自进化的智能汽车个性化换道决策系统  一种权重自进化的智能汽车个性化换道决策系统 
 本发明涉及一种权重自进化的智能汽车个性化换道决策系统，包括:驾驶风格量化模块、换道决策模块、换道性能基线评估模块；驾驶风格量化模块给出驾驶风格量化结果，输出至换道决策模块，换道决策模块计算SV和PV的收益函数及PV的收益函数各项权重并做换道决策判断，换道性能基线评估模块结合数据驱动的换道决策子模块输出的决策结果，评估当前更优的决策结果，输出评估结果至权重自学习子模块及基线自评估器，权重自学习子模块动态调整PV的收益函数各项权重，基线自评估器根据评估结果决定当前权重自进化过程是否终结。本发明具备自主学习能力，大幅提高了换道决策系统的工况适应性与灵活性，能够在各类复杂多变的行驶工况中取得良好的性能表现。
一种双电机电驱动桥总成及车辆  一种双电机电驱动桥总成及车辆 
 本发明涉及汽车传动技术领域，具体公开了一种双电机电驱动桥总成及车辆，其中，行星支架上凸设有若干连接轴，若干连接轴与若干行星轮一一对应，行星轮转动连接于连接轴，行星轮同时与外齿圈以及太阳轮啮合，第一驱动电机传动连接于左半轴与行星支架，并能够驱动左半轴与行星支架转动，第二驱动电机传动连接于太阳轮，并能够驱动太阳轮转动，传动机构传动连接于外齿圈与右半轴之间。在第一驱动电机一侧的车轮转速保持不变的情况下，车辆的直线、左转、右转之间的切换仅通过对第二驱动电机的转速控制就能得以实现，且精准控制车辆的转弯半径，甚至可实现左右轮反转，完成原地掉头，适用场景范围较广，响应速度快，有效提升车辆的灵活性。
一种管道机器人底盘  一种管道机器人底盘 
 本发明涉及管道机器人的技术领域，更具体地，涉及一种管道机器人底盘，包括底盘主体、前轮组件、后轮组件以及用于调整前轮组件运动方向的水平调节组件，后轮组件与底盘主体连接，前轮组件与底盘主体转动连接，水平调节组件与底盘主体滑动连接并与前轮组件连接，底盘主体发生倾斜时，水平调节组件控制前轮组件向底盘主体高度较低的一侧旋转。本发明实现了机器人底盘位置的自动调节，令管道机器人在管道内部始终保持水平，整体运动过程稳定，避免发生机器人翻转等事故。
一种具有双缓冲结构的轮足腿及轮足机器人  一种具有双缓冲结构的轮足腿及轮足机器人 
 一种具有双缓冲结构的轮足腿及轮足机器人，它涉及机器人技术领域。本发明为解决现有轮足式机器人弹性元件尺寸小、缓冲行程受限问题引起的缓冲性能不足的问题。本发明缓冲式轮足腿包括膝关节电机、膝关节曲柄、膝关节连杆、大腿、小腿、轮毂电机、膝关节缓冲机构和腿部缓冲机构，膝关节电机的膝关节电机输出轴与膝关节曲柄的一端固接，膝关节曲柄的另一端通过膝关节连杆与小腿的上端转动连接，大腿的上端通过大腿法兰与膝关节电机固接，大腿的下端与小腿的上侧转动连接，小腿的下端与轮毂电机连接，膝关节缓冲机构设置在大腿与膝关节曲柄之间，实现膝关节的缓冲，腿部缓冲机构设置在大腿与小腿之间，实现腿部的缓冲。本发明用于足式机器人。
一种功率分流混合动力车辆联合优化部件与控制参数方法  一种功率分流混合动力车辆联合优化部件与控制参数方法 
 本发明公开了一种功率分流混合动力车辆联合优化部件与控制参数方法，该方法针对功率分流混合动力汽车建立了一种联合优化部件与控制参数的架构，该架构外层和内层分别进行部件参数和控制参数优化。外层优化的目标函数同时考虑部件成本与内层优化目标函数；内层优化的目标函数为燃油成本。在Isight软件中集成整车模型、控制策略模型和联合优化算法，通过遍历所有组合部件参数实现对部件参数与控制参数的联合寻优，缩短了功率分流式混合动力汽车动力系统及控制策略优化的周期。在满足动力性指标的条件下以提升经济性和降低部件成本为目标，解决了厂商及用户共同关注的经济效益问题，对功率分流式混合动力系统设计具有重要的指导意义。
一种内置电机式拖拉机驱动桥  一种内置电机式拖拉机驱动桥 
 本发明公开了一种内置电机式拖拉机驱动桥，包括集成壳体，在集成壳体内设置驱动电机，主驱动轴嵌入连接在驱动电机内；在主驱动轴上固定安装第一齿轮和驱动锥齿轮，在集成壳体内设置差速桥，驱动锥齿轮与差速桥动力连接，差速桥的两输出端穿过集成壳体的外壁悬挑设置在集成壳体两侧；在集成壳体内设置有前驱动组件和后驱动组件，第一齿轮带动前驱动组件和后驱动组件转动、实现动力输出；在集成壳体的外侧设置悬挂组件，悬挂组件用于挂接作业部件；电机控制器嵌入在电驱动桥内。该驱动桥集成度高，且将电机内置在集成壳体内，能够适应恶劣的作业环境，取消了复杂的变速传动结构，控制简单便捷，可应用于不同的拖拉机，通用性好。
基于三级定位与两级路径规划机制的交叉路口路径规划与跟踪方法  基于三级定位与两级路径规划机制的交叉路口路径规划与跟踪方法 
 本发明涉及一种基于三级定位与两级路径规划机制的交叉路口路径规划与跟踪方法，属于自动驾驶技术领域。该方法无需额外增加传感器，仅依赖现有L2级自动驾驶车辆的车载低精度GPS系统、车载自动驾驶相机以及轻量化交叉路口预建地图，通过三级定位模块实现车辆在交叉路口的精确定位，并设计两级路径规划策略，确保车辆在通过交叉路口时能够安全高效地完成转向操作。该方法在算力受限的情况下仍能保证车辆定位的准确性，并实现路径规划的适时更新，显著提升了L2级自动驾驶车辆在复杂交叉路口场景中的可用性与安全性，同时保持了低成本与高效的技术优势。
四轮独立驱动电动汽车转向稳定和节能性的适应控制方法  四轮独立驱动电动汽车转向稳定和节能性的适应控制方法 
 本发明公开了一种四轮独立驱动电动汽车转向稳定和节能性的适应控制方法。方法包括:建立基于转向稳定节能评估参数的时域调控模型，将期望水平参数和电池剩余容量通过模糊控制器实时调节后获得自适应系数；当质心侧偏角的相平面处于稳定区域时，将自适应系数及水平参数输入模型中处理后输出实时变化的预测时域和控制时域并作为MPC算法的时域，将期望质心侧偏角和横摆角速度经过改进MPC算法处理后输出附加横摆力矩，进而对电动汽车进行适应性控制。本发明方法利用整车固有参数和实时参数，结合相平面分析和模糊控制器，实现MPC算法的变时域控制，从而协调稳定性和节能性，能够得到最小化附加横摆力矩，达到协调稳定性和节能性的目的。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工