基于模型强化学习的混合动力汽车自适应能量管理框架制造技术

技术编号:37770404 阅读:27 留言:0更新日期:2023-06-06 13:34
本发明专利技术公开了基于模型强化学习的混合动力汽车自适应能量管理框架;所述自适应能量管理框架包括一个前馈控制器和一个反馈控制器,前者是基于无模型强化学习算法离线训练获得的深度神经网络控制器,而后者是基于模型强化学习算法在线学习获得,它的参数可以根据最新的驾驶数据定期更新。本发明专利技术解决了现有基于无模型强化学习算法控制框架训练时间长、数据利用率低的问题,可以实现在线高效更新反馈控制器,提高了混合动力汽车能量管理控制框架的适应性,能够在多种新的道路工况下保证燃油经济性并较好地维持动力电池荷电状态。性并较好地维持动力电池荷电状态。性并较好地维持动力电池荷电状态。

【技术实现步骤摘要】
基于模型强化学习的混合动力汽车自适应能量管理框架


[0001]本专利技术涉及混合动力汽车能量管理领域,尤其涉及基于模型强化学习的混合动力汽车自适应能量管理框架。

技术介绍

[0002]由于动力电池和燃料电池的技术瓶颈,混合动力汽车(HEV)在缓解日益严峻的环境污染和能源困境方面具有重要作用。混合动力汽车包含两个或两个以上的动力源,根据动力系统结构的不同,一般可分为串联式、并联式和功率分流式混合动力汽车。为了达到节能减排的目的,在多个动力源之间合理分配动力是至关重要的。混合动力汽车的能量管理策略是协调发动机和电池之间的功率分配,目的是最大限度地减少燃料消耗和保持电池的荷电状态(SOC)。近些年来,相关研究人员已经提出了基于规则、基于优化和基于学习的三类能量管理策略(EMS)。基于规则的EMS由于其简单性、高可靠性和实时性,已被广泛用于商用HEV;然而,基于规则的EMS过于依赖专家经验和驾驶条件,限制了它们的优化性和对随机环境的适应性。基于优化的EMS主要包括全局优化的EMS和瞬时优化的EMS,但是基于全局优化的EMS由于算法计算负担大,难以实时在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于模型强化学习的混合动力汽车自适应能量管理框架,其特征在于:该自适应能量管理框架包括一个前馈控制器和一个反馈控制器;通过无模型强化学习算法离线训练得到前馈控制器;利用模型强化学习算法,在线更新反馈控制器的参数;车辆模型和行驶工况构成环境,向控制器输入车辆每一时刻的状态,然后通过由前馈控制器输出的动作P和反馈控制器输出的动作ΔP共同作用于环境;自适应能量管理框架的总输出动作为发动机功率,表示为u
t
=π(x
t
,ψ)+π

(x
t
,θ);其中,x
t
表示状态变量,包括当前t时刻车辆的速度、加速度和电池SOC,ψ表示前馈控制器的参数,θ表示反馈控制器的参数。2.根据权利要求1所述的基于模型强化学习的混合动力汽车自适应能量管理框架,其特征在于;前馈控制器根据当前输入的状态变量输出前馈控制量;前馈控制器表示为π(x
t
,ψ),其通过无模型深度强化学习算法进行训练,原理是学习到一个最优策略π
*
,使返回的奖励最大化。3.根据权利要求1所述的基于模型强化学习的混合动力汽车自适应能量管理框架,其特征在于:在前馈控制器的基础上,采用反馈控制器作为电池SOC调节器,来维持电池荷电状态在目标水平;反馈控制器表示为π

(x
t
,θ),其通过模型强化学习算法在线训练,实时更新控制参数θ。4.根据权利要求1所述的基于模型强化学习的混合动力汽车自适应能量管理框架,其特征在于:反馈控制器实时更新参数使用的算法,为具有高效数据利用率的模型强化学习PILCO算法;由于前馈控制器的参数ψ已经离线训练确定,PILCO算法的求解目标是实时更新反馈控制器参数θ,以使完成一次工况的预期成本最小化,预期成本可表示为其中c(x
t
)是状态变量x
t
的成本函数,包括瞬时燃油消耗量和偏离预设参考SOC的惩罚。5.根据权利要求1所述的基于模型强化学习的混合动力汽车自适应能量管理框架,其特征在于:模型强化学习PILCO算法的求解流程为:S1:初始化反馈控制器π

(x
t
,θ)的参数S2:对混合动力汽车应用完整的控制u
t
=π(x
t
,ψ)+π

(x
t
,θ),记录数据{x
t
,u
t
}并获得前馈控制其中t=1,

,T;S3:重复进行如下步骤;S3.1:使用记录的数据和高斯过程学习概率动力学模型f(x
t
,u
t
);S3.2:重复进行如下步骤:S3.2.1:使用进行近似完整控制;S3.2.2:模拟策略推出以获得状态概率分布p(x1),p(x2),

,p(x<...

【专利技术属性】
技术研发人员:石翠铎赵克刚梁志豪
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1