System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 深度强化学习型能量管理策略的无权重训练及测试方法技术_技高网
当前位置: 首页 > 专利查询>重庆大学专利>正文

深度强化学习型能量管理策略的无权重训练及测试方法技术

技术编号:41505786 阅读:28 留言:0更新日期:2024-05-30 14:46
本发明专利技术涉及一种深度强化学习型能量管理策略的无权重训练以及测试方法,属于新能源汽车与人工智能算法的交叉领域。该方法包括:S1:建立面向离线迭代训练的仿真道路场景,并搭建来自于真实道路的测试场景,同时设计面向短时域行驶范围的实时速度规划方法;S2:针对多种配备单电机的并联混合动力系统构型,建立基于Python环境与Simulink环境的联合仿真训练架构;S3:设计无权重化训练方法,通过消除原先奖励函数中关于瞬时燃料消耗和SOC偏差的优化项后,引入规则型发动机启停策略实现针对SOC变化的维持,并利用发动机最佳运行曲线与燃油消耗率引导深度强化学习型智能体探索最优型能量管理策略;S4:离线仿真训练与测试环节结束后进行硬件在环测试。

【技术实现步骤摘要】

本专利技术属于新能源汽车与人工智能算法的交叉领域,涉及一种深度强化学习型能量管理策略的无权重训练及测试方法


技术介绍

1、纯电动汽车因其充电价格、环保动力和适用于城市驾驶等特点引起消费者的关注,燃料电池汽车使用氢气在燃料电池堆中产生电力,然后驱动电动机,而混合动力汽车处于更先进的技术阶段,能够满足长途旅行、便捷加油/充电、能效和减排的要求。能量管理策略是决定混合动力汽车燃油经济性的核心技术之一,需要在满足动力需求与系统约束的同时确保多个能源之间的最优能量分配。近年,强化学习在游戏和自动驾驶等领域取得了许多惊人的成就,研究热度逐年增加。同时,为了解决传统强化学习中的“离散误差”和“维度灾难”等缺陷,学者们开始更加关注于深度强化学习算法,如深度值网络、深度确定性策略梯度、软性演员-评论家等。然而,在针对能量管理策略的实际研究过程中存在以下两点问题:

2、(1)奖励函数中的soc偏差项可能误导强化学习智能体。许多研究都采用包含瞬时燃油消耗和电荷状态偏差的奖励函数,这可能受到以往基于等效燃油消耗最小策略算法的影响。在强化学习的背景下,奖励值在引导智能体探索更优控制策略时起着关键作用。然而,这种定义类型的奖励却可能误导训练流程。例如,当实时soc和目标值之间已经存在很大差距,采取的任何动作都可能产生很大的奖励。类似地,当soc等于40%和80%时,尽管与目标值的偏差相同,但是应该选择的最优动作将不一致。由于受到传统能量管理策略的经验影响,这种奖励函数的定义可能并不适用于强化学习型能量管理策略。

3、(2)传统的训练过程将耗费大量精力和时间调整权重参数。通常,在正常的训练过程中,确保算法在优化目标下能够收敛至关重要。随后,根据结果针对混合动力系统模型进行检查。依赖于持续的训练以及权重的调整,目标就是实现最佳燃油经济性与维持soc状态。因此,权重调整是一个耗时的过程,严重依赖于个人经验以及所用设备的算力。此外,在权重调整技能方面,特别是奖励函数中的权重系数,基本上没有有价值的共享经验。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种深度强化学习型能量管理策略的无权重训练及测试方法,使其适用于混合动力汽车并且能够提高能量管理策略的训练速度和控制效率。

2、为达到上述目的,本专利技术提供如下技术方案:

3、一种深度强化学习型能量管理策略的无权重训练及测试方法,具体包括以下步骤:

4、s1:针对仿真环境的训练与测试场景的建模,结合来地图(如谷歌地图、谷歌地球)与地理信息系统的真实数据,利用三维仿真建模软件(如matlab、roadrunner及unrealengine等),修改基于mathworks官方地图中curved road的训练场景,并且搭建来自于真实道路的测试场景,同时设计一套面向短时域行驶范围的实时速度规划方法;

5、s2:针对多种配备单电机的并联混合动力系统构型,建立基于python环境与simulink环境的联合仿真训练架构,通过matlab.engine引擎与matlab函数形成交互式数据传递架构;

6、s3:针对以往的训练方法中存在的设计缺陷,设计一种新的无权重化训练方法,通过消除原先奖励函数中关于瞬时燃料消耗和soc偏差的优化项后,引入规则型发动机启停策略实现针对soc变化的维持,并利用发动机最佳运行曲线与燃油消耗率引导深度强化学习型智能体探索最优型能量管理策略;

7、s4:离线仿真训练与测试环节结束后进行硬件在环测试,将训练得到的最优能量管理策略在python环境下保存为pytorch工具的pth文件,在simulink环境中通过constant常量模块的形式重建矩阵,而数据总量由相邻两层的神经元个数决定,通过huahai rapidu3车规级控制器以及speedgoat移动实时目标机,利用can通讯方式完成针对深度强化学习型混合动力系统能量管理策略的硬件在环测试、校准与监控。

8、进一步,步骤s1中,针对仿真环境的训练与测试场景的建模,具体包括以下步骤:

9、s11:通过地图(如谷歌地图)确定起点到终点的最佳路径;然后,通过在数字地球(如谷歌地球)中搜索目标路径,获取目标路径的高程数据,以kml格式导出路径并利用地理信息系统获取纬度和经度数据;并获取相对应目标路径所在区域的地形特征。随后,使用mathworks发布的mapping toolbox工具集中distance函数,将纬度和经度信息转换为距离数据,并使用数据在笛卡尔坐标系中以米为单位重新创建整个路径的轨迹。接下来,该路径轨迹被转换为xodr格式并导入到roadrunner软件中,针对目标路径绘制道路表面、车道线和道路边界等元素。通过该模型被保存为fbx文件并且导入到unreal engine建模软件后,利用地形建模工具对目标路径的周围区域绘制相应的地形特征。此外,还建立具有标志性的地理特征元素。在完成以上过程后,建立了3d测试场景模型,以1:1的比例复制了真实世界的目标路径。

10、s12:训练路径主要基于mathworks官方地图中curved road场景。由于原始道路模型是完全封闭且绝对平坦的,因此引入真实世界的海拔变化,模拟真实世界的起伏地形,将实际坡度与z轴数据合并;此外,坡度的引入导致了起点和终点之间在垂直方向上的显著高度差。因此,当车辆即将到达终点时,立即停止当前回合的训练,具体的建模过程与测试场景相同。

11、s13:在完成驾驶场景的三维建模后,需要设计一种能够用于实时且局部速度规划的方法。在综合考虑巡航控制、车道保持、速度优化以及坡度利用时,短期行驶速度规划能够在引入自动驾驶算法时,为后续路径规划与避障等功能提供必要的数据接口。如果前方存在障碍物,那么局部速度规划的范围将进一步缩小。此外,考虑到实际条件,例如前视摄像头视野范围,速度规划区域将限制在当前位置所处的路点后未来60个路点范围内。这就意味着根据实时的最大纵向行驶力、最大纵向制动力、道路曲率、道路坡度以及空气阻力系数等参数进行未来60米范围的速度规划。这些环境变量在实际目标速度轨迹中是隐含的,而规划的短时域速度轨迹完全符合机械特性。同时,在60米范围内以每个路点位置的当前速度为基础,确保车辆能够在未来60米处能够安全且舒适的停止。

12、进一步,步骤s2具体包括以下步骤:

13、s21:利用python环境下的pytorch深度学习工具包建立深度强化学习型智能体,分别搭建面向离散控制的深度值网络算法以及面向连续控制的深度确定性策略梯度算法,这两者除了输出层之外具有相同的全连接型神经网络架构,即7/256/128/64,而前者输出层共计16个神经元且不适用激活函数,后者输出层仅1个神经元且适用sigmoid函数控制输出范围。

14、s22:在simulink环境下结合powertrain blockset工具总共建立多种配备单电机的并联式混合动力系统模型。由于电机布置位置不同,导致实际运行过程中本文档来自技高网...

【技术保护点】

1.一种深度强化学习型能量管理策略的无权重训练及测试方法,其特征在于,该方法具体包括以下步骤:

2.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S1具体包括以下步骤:

3.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S2具体包括以下步骤:

4.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S3中,设计无权重化训练方法,具体包括以下步骤:

5.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S32中,为了优化训练过程,两个优化项均以归一化形式进行表征,具体如下:

【技术特征摘要】

1.一种深度强化学习型能量管理策略的无权重训练及测试方法,其特征在于,该方法具体包括以下步骤:

2.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤s1具体包括以下步骤:

3.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤s2具体包括以...

【专利技术属性】
技术研发人员:唐小林陈佳信汪锋杨为李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1