一种基于PA-DDPG算法的混合动力系统能量管理方法技术方案

技术编号:34862602 阅读:99 留言:0更新日期:2022-09-08 08:06
本发明专利技术公开了一种基于PA

【技术实现步骤摘要】
一种基于PA

DDPG算法的混合动力系统能量管理方法


[0001]本专利技术属于混合动力汽车能量管理
,尤其涉及一种基于PA

DDPG算法的混合动力系统能量管理方法。

技术介绍

[0002]随着科学技术的发展,工业上对能源的使用量越来越大,其中汽车行业在工业中占据了一定比例,为了解决汽车行业对石油的依赖,混合动力汽车在汽车工业中的占比不断增加,由于混合动力汽车结合了内燃机和电机的优点,其动力源至少包括内燃机和电机,因此,混合动力汽车的能量管理系统对燃油经济性具有十分重要的意义,有效的能量管理系统可以协同各个动力源之间的配合,以减少燃油消耗和温室气体排放。
[0003]目前主要基于三类方法设计混合动力汽车的能量管理策略:基于规则的方法,基于优化的方法和基于学习的方法,其中基于规则的能量管理策略用已设定的规则计算转矩分配,计算速度快,实时性高,在目前的汽车行业中应用较多,分布较广,但基于规则的能量管理策略在制定时,需要以专家的经验,对特定车型进行单独制定,无法用于其他车辆,且较为依赖经验水平,其本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,包括以下步骤:步骤1:建立PA

DDPG代理模型;步骤2:设置PA

DDPG代理模型的状态、动作、动作参数和回报,得到设置后的PA

DDPG代理模型;步骤3:获取相关训练数据集,根据获得的相关训练数据集训练步骤2得到的训练后的PA

DDPG代理模型得到训练后的PA

DDPG代理模型;步骤4:使用训练后的PA

DDPG代理模型进行并联式混合动力车辆的能量管理。2.根据权利要求1所述的基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,步骤1中所述PA

DDPG代理模型包括:online网络和target网络,所述online网络和target网络都包括一个actor网络和一个critic网络。3.根据权利要求1所述的基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,步骤2中状态量为:汽车车速v,汽车加速度acc,动力电池SOC和变速器档位gear,状态变量向量为s={v,acc,SOC,gear}
T
,变速器换档shift={downShift,sustain,upShift}为动作变量,动作变量的参数为p={T
edown
,T
esus
,T
eup
},参数化动作变量向量为a={(downShift,T
edown
),(sustain,T
esus
),(upshift,T
eup
)}
T
,奖励函数被用于评价t时刻在状态s
t
下执行动作a
t
的表现性能,奖励函数定义为成本函数和单次换档持续时间之和的负值。4.根据权利要求3所述的基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,所述成本函数如公式(1)所示:cost(t)=fuel(t)+α[SOC
ref

SOC(t)]2ꢀꢀꢀꢀꢀꢀꢀ
(1)其中,fuel(t)为当前时刻下汽车的燃油消耗,SOC
ref
为期望SOC的参考值,SOC(t)为当前时刻电池SOC值,α为电池充电维持的权重;所述单次换档持续时间如公式(2)所示:所述奖励函数如公式(3)所示:r=

{cost(t)+β*sustainTime(t)}
ꢀꢀꢀꢀꢀꢀ
(3)其中,β为单次换档持续时间的权重。5.根据权利要求1所述的基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,步骤3具体包括以下步骤:步骤A:初始化所述设置后的PA

DDPG代理模型得到初始化后的PA

DDPG代理模型;步骤B:将初始化后的PA

DDPG代理模型与混合动力汽车进行交互,得到训练数据集;步骤C:根据所述训练数据集对PA

DDPG代理模型进行训练,最终得到训练后的PA

DDPG代理模型。6.根据权利要求5所述的基于PA

DDPG算法的混合动力系统能量管理方法,其特征在于,步骤B具体包括以下步骤:将当前时刻状态集合s={v,acc,SOC,gear}
T
输入online actor网络,根据当前online actor网络的策略μ,输出所有连续化的离散动作logShift及对应的动作参数p,组成一组动作集合a
shift
={logShift,p}
T
,选择logShift最大值对应的shift作为当前时刻选择的离散动作,同时选择动作集合a
shift
={logShift,p}
T
中对应的动
作参数p;将当前时刻状态集合s={v,a,SOC,gear}
T
和动作集合a
shift
={logShift,p}
T
输入online critic网络,online critic网络输出在状态s下,执行动作集合a
shift
的Q值,将得到的参数化动作a
t
作用于混合动力汽车,得到当前时刻回报r
t
以及下一时刻的状态集合s
t+1
;最后根据上述相关数据s
t
,a
t
,r
t
,s
t...

【专利技术属性】
技术研发人员:郭爱君周健豪赵万忠常家庆汪杰
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1