System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于模型深度强化学习PEMFC喷射式供气系统控制方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>山东大学专利>正文

基于模型深度强化学习PEMFC喷射式供气系统控制方法及系统技术方案

技术编号:40532856 阅读:6 留言:0更新日期:2024-03-01 13:54
本发明专利技术属于燃料电池供气系统技术领域,提供了基于模型深度强化学习PEMFC喷射式供气系统控制方法及系统,针对PEMFC喷射式供气系统精确的控制模型难以建立的问题,本发明专利技术提出基于模型深度强化学习的PEMFC喷射式供气系统控制方法,首先利用深度神经网络建立PEMFC喷射式供气系统的动态系统模型,其次利用演员‑评论家框架与学习得到的PEMFC喷射式供气系统的动态系统模型交互并最大化预测区间内的累计奖励,学习到一种基于模型预测控制的神经网络策略,最终只需固定演员网络模型参数并将演员网络部署于PEMFC喷射式供气系统的控制器中,即可实现PEMFC喷射式供气系统的实时最优控制。

【技术实现步骤摘要】

本专利技术属于燃料电池供气系统,尤其涉及基于模型深度强化学习pemfc喷射式供气系统控制方法及系统。


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、质子交换膜燃料电池(proton exchange membrane fuel cell,pemfc)因其能量转换效率高、运行噪声低、响应速度快、低污染等优点备受关注。喷射式pemfc运行时控制供气系统使氢气、氧气过量供应从而避免氢、氧饥饿导致的电池寿命衰减现象,同时利用喷射器代替氢循环泵循环未反应的氢气,依靠氢气循环排出反应生成的水,避免了水淹现象,同时提高了氢气利用率。然而,pemfc喷射式供气系统是一种多变量、非线性、强耦合的复杂系统,精确的控制模型难以建立,传统的基于模型的控制方法应用困难,需要智能控制技术来保证喷射式pemfc的高效运行。

3、随着人工智能技术的发展,可以采用深度强化学习来解决pemfc喷射式供气系统控制问题,与传统的基于模型的控制方法相比,该控制方法不需要pemfc喷射式供气系统的先验知识,其通过与pemfc喷射式供气系统交互来得到最优控制策略。

4、专利技术人发现,传统的喷射式供气系统控制策略采用基于无模型深度强化学习的样本采样效率较低,需要与真实系统做大量频繁的交互才能得到较好的控制策略,交互过程往往会偏离系统正常工况,影响真实系统正常运行,甚至对系统造成破坏。

5、基于模型深度强化学习除了学习控制策略外,还学习环境的动态系统模型,从而极大降低了所需的数据量,提高了样本采样效率,此外基于模型深度强化学习通过与模型进行交互,不影响真实系统的正常运行且可以保障系统的安全运行。


技术实现思路

1、为了解决上述
技术介绍
中存在的至少一项技术问题,本专利技术提供基于模型深度强化学习pemfc喷射式供气系统控制方法及系统,其通过学习pemfc喷射式供气系统的动态系统模型,从而极大降低了所需的数据量,提高了样本采样效率,此外基于模型深度强化学习通过与学习得到的pemfc喷射式供气系统的动态系统模型进行交互来学习最优控制策略,而不影响真实系统的正常运行且可以保障系统的安全运行。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、本专利技术的第一个方面提供基于模型深度强化学习pemfc喷射式供气系统控制方法,包括如下步骤:

4、将pemfc喷射式供气系统控制问题描述为马尔可夫决策过程,采用深度神经网络建立pemfc喷射式供气系统的动态系统模型;

5、基于强化学习机制与得到的pemfc喷射式供气系统的动态系统模型交互得到最优控制策略,具体包括:

6、基于演员-评论家框架与学习得到的pemfc喷射式供气系统的动态系统模型以滚动预测时域的方式交互,通过最大化预测区间内累计奖励,学习得到一个基于模型预测控制的神经网络策略;

7、固定演员网络模型的参数并将演员网络部署于pemfc喷射式供气系统的控制器中,以实现pemfc喷射式供气系统的实时最优控制。

8、进一步地,所述将pemfc喷射式供气系统控制问题描述为马尔可夫决策过程,包括:

9、定义状态、动作和奖励;

10、状态定义为与pemfc喷射式供气系统控制目标以及与控制目标相关的系统状态变量,智能体在t时刻观测到的状态s为:

11、

12、智能体在t时刻的动作定义为:

13、at=[apt,hpst,hrst],

14、智能体在t时刻获得的奖励reward定义为:

15、

16、其中,为氧气过量比,为氢气过量比,δpt为阳极、阴极膜压差,为阴极压力,为喷射器出口质量流量,ptsm,an为阳极进气压力,ptfc为系统输出功率;apt为空压机电压,hpst为氢压力调节阀设定值,hrst为回氢调节阀设定值;pttarget分别为pemfc喷射式供气系统在t时刻的氧气过量比、氢气过量比以及阳极、阴极膜压差目标设定值,λ1,λ2,λ3为环境对三种跟踪误差的奖励系数。

17、进一步地,pemfc喷射式供气系统的控制目标是使氧气过量比、氢气过量比以及阳极、阴极膜压差跟踪最优的设定值,通过改变空压机电压,氢压力调节阀设定值和回氢调节阀设定值这三个变量实现pemfc喷射式供气系统的控制。

18、进一步地,所述采用深度神经网络建立pemfc喷射式供气系统的动态系统模型,包括:

19、利用控制器与pemfc喷射式供气系统交互得到一条长度为m的轨迹;

20、将轨迹切分为m个元组并将其存放到模型训练经验回放池中,对模型训练经验回放池中的数据进行归一化处理;

21、基于归一化处理的数据对深度神经网络模型进行训练,基于pemfc喷射式供气系统当前时刻状态与动作,利用深度神经网络预测下一时刻的pemfc喷射式供气系统的状态变化量。

22、进一步地,所述演员网络输入为pemfc喷射式供气系统的状态,输出为针对pemfc喷射式供气系统当前状态所对应的最优控制策略,所述评论家网络输入为pemfc喷射式供气系统的状态和当前状态所对应的控制动作,输出为状态和控制动作所对应的价值。进一步地,所述基于演员-评论家框架网络与学习得到的pemfc喷射式供气系统的动态系统模型以滚动预测时域的方式交互,包括:

23、利用学习确定性策略的演员网络与学习得到的pemfc喷射式供气系统的动态系统模型以滚动预测时域的方式交互,两者相互交互得到一条长度为预测区间的轨迹,累加轨迹内状态转移对应的奖励为预测区间内的累计奖励,利用交互得到的预测区间内的真实累计奖励作为评论家网络的更新目标。

24、进一步地,所述演员-评论家深度神经网络的训练过程包括:

25、从策略学习经验回放池中随机抽样k个元组数据,利用梯度下降最小化评论家网络损失函数来更新评论家网络模型参数,利用梯度上升和确定性策略梯度更新演员网络模型参数,通过演员-评论家网络与基于深度神经网络学习得到的pemfc喷射式供气系统的动态系统模型交互,不断更新演员和评论家的网络模型参数,得到最优的控制策略。

26、本专利技术的第二个方面提供一种基于深度强化学习pemfc喷射式供气系统控制系统,包括:

27、动态系统模型构建模块,被配置为将pemfc喷射式供气系统控制问题描述为马尔可夫决策过程,采用深度神经网络建立pemfc喷射式供气系统的动态系统模型;

28、模型深度强化学习模块,被配置为基于强化学习机制与学习得到的pemfc喷射式供气系统的动态系统模型交互得到最优控制策略,具体包括:

29、基于演员-评论家框架网络与学习得到的pemfc喷射式供气系统的动态系统模型以滚动预测时域的方式交互,通过最大化预测区间内累计奖励,学习得到一个基于模型预测控制的神经网络策略;

30、控制模块,被配置为固定演员网络模型的参数并将本文档来自技高网...

【技术保护点】

1.基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,所述将PEMFC喷射式供气系统控制问题描述为马尔可夫决策过程,包括:

3.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,PEMFC喷射式供气系统的控制目标是使氧气过量比、氢气过量比以及阳极、阴极膜压差跟踪最优的设定值,通过改变空压机电压,氢压力调节阀设定值和回氢调节阀设定值这三个变量实现PEMFC喷射式供气系统的控制。

4.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,所述采用深度神经网络建立PEMFC喷射式供气系统的动态系统模型,包括:

5.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,所述演员网络输入为PEMFC喷射式供气系统的状态,输出为针对PEMFC喷射式供气系统当前状态所对应的最优控制策略,所述评论家网络输入为PEMFC喷射式供气系统的状态和当前状态所对应的控制动作,输出为状态和控制动作所对应的价值。

6.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,所述基于演员-评论家框架网络与学习得到的PEMFC喷射式供气系统的动态系统模型以滚动预测时域的方式交互,包括:

7.如权利要求1所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法,其特征在于,所述演员-评论家深度神经网络的训练过程包括:

8.基于模型深度强化学习PEMFC喷射式供气系统控制系统,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法中的步骤。

10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于模型深度强化学习PEMFC喷射式供气系统控制方法中的步骤。

...

【技术特征摘要】

1.基于模型深度强化学习pemfc喷射式供气系统控制方法,其特征在于,包括如下步骤:

2.如权利要求1所述的基于模型深度强化学习pemfc喷射式供气系统控制方法,其特征在于,所述将pemfc喷射式供气系统控制问题描述为马尔可夫决策过程,包括:

3.如权利要求1所述的基于模型深度强化学习pemfc喷射式供气系统控制方法,其特征在于,pemfc喷射式供气系统的控制目标是使氧气过量比、氢气过量比以及阳极、阴极膜压差跟踪最优的设定值,通过改变空压机电压,氢压力调节阀设定值和回氢调节阀设定值这三个变量实现pemfc喷射式供气系统的控制。

4.如权利要求1所述的基于模型深度强化学习pemfc喷射式供气系统控制方法,其特征在于,所述采用深度神经网络建立pemfc喷射式供气系统的动态系统模型,包括:

5.如权利要求1所述的基于模型深度强化学习pemfc喷射式供气系统控制方法,其特征在于,所述演员网络输入为pemfc喷射式供气系统的状态,输出为针对pemfc喷射式供气系统当前状态所对应的最优控制策略,所述评论家网络输入为p...

【专利技术属性】
技术研发人员:王新立张程浩王雷贾磊徐增师
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1