当前位置: 首页 > 专利查询>重庆大学专利>正文

深度强化学习型能量管理策略的无权重训练及测试方法技术

技术编号:41505786 阅读:36 留言:0更新日期:2024-05-30 14:46
本发明专利技术涉及一种深度强化学习型能量管理策略的无权重训练以及测试方法,属于新能源汽车与人工智能算法的交叉领域。该方法包括:S1:建立面向离线迭代训练的仿真道路场景,并搭建来自于真实道路的测试场景,同时设计面向短时域行驶范围的实时速度规划方法;S2:针对多种配备单电机的并联混合动力系统构型,建立基于Python环境与Simulink环境的联合仿真训练架构;S3:设计无权重化训练方法,通过消除原先奖励函数中关于瞬时燃料消耗和SOC偏差的优化项后,引入规则型发动机启停策略实现针对SOC变化的维持,并利用发动机最佳运行曲线与燃油消耗率引导深度强化学习型智能体探索最优型能量管理策略;S4:离线仿真训练与测试环节结束后进行硬件在环测试。

【技术实现步骤摘要】

本专利技术属于新能源汽车与人工智能算法的交叉领域,涉及一种深度强化学习型能量管理策略的无权重训练及测试方法


技术介绍

1、纯电动汽车因其充电价格、环保动力和适用于城市驾驶等特点引起消费者的关注,燃料电池汽车使用氢气在燃料电池堆中产生电力,然后驱动电动机,而混合动力汽车处于更先进的技术阶段,能够满足长途旅行、便捷加油/充电、能效和减排的要求。能量管理策略是决定混合动力汽车燃油经济性的核心技术之一,需要在满足动力需求与系统约束的同时确保多个能源之间的最优能量分配。近年,强化学习在游戏和自动驾驶等领域取得了许多惊人的成就,研究热度逐年增加。同时,为了解决传统强化学习中的“离散误差”和“维度灾难”等缺陷,学者们开始更加关注于深度强化学习算法,如深度值网络、深度确定性策略梯度、软性演员-评论家等。然而,在针对能量管理策略的实际研究过程中存在以下两点问题:

2、(1)奖励函数中的soc偏差项可能误导强化学习智能体。许多研究都采用包含瞬时燃油消耗和电荷状态偏差的奖励函数,这可能受到以往基于等效燃油消耗最小策略算法的影响。在强化学习的背景下,奖励值在引导智能本文档来自技高网...

【技术保护点】

1.一种深度强化学习型能量管理策略的无权重训练及测试方法,其特征在于,该方法具体包括以下步骤:

2.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S1具体包括以下步骤:

3.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S2具体包括以下步骤:

4.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S3中,设计无权重化训练方法,具体包括以下步骤:

5.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤S32中,为了优化训练过程,两个优化项均以归一化形式进行表征,具体如下:

【技术特征摘要】

1.一种深度强化学习型能量管理策略的无权重训练及测试方法,其特征在于,该方法具体包括以下步骤:

2.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤s1具体包括以下步骤:

3.根据权利要求1所述的无权重训练及测试方法,其特征在于,步骤s2具体包括以...

【专利技术属性】
技术研发人员:唐小林陈佳信汪锋杨为李佳承
申请(专利权)人:重庆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1