System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于深度强化学习的通风阻力系数反演方法技术_技高网

一种基于深度强化学习的通风阻力系数反演方法技术

技术编号:39952798 阅读:10 留言:0更新日期:2024-01-08 23:26
本发明专利技术属于矿井通风技术领域,具体涉及一种基于深度强化学习的通风阻力系数反演方法,包括如下步骤:S1:定义智能体交互环境env;S2:定义智能体Agent,智能体包括θ参数化的策略神经网络Actor‑Net和w参数的价值神经网络Critic‑Net;S3:初始化智能体参数和学习训练参数;S4:收集智能体与环境交互的轨迹数据;S5:取样采集轨迹数据,计算优势函数更新θ和w,完成max‑epochs次智能体策略更新,输出最优阻力系数。本发明专利技术为智能获取通风阻力系数提供了一种新方法,为实时通风网络解算提供技术支持。

【技术实现步骤摘要】

本专利技术属于矿井通风,具体涉及一种基于深度强化学习的通风阻力系数反演方法


技术介绍

1、矿井通风阻力系数分布不仅与矿井通风系统的稳定性紧密相关,同时也是通风系统数字化、智能化中的核心参数,其准确性直接关系到实时通风网络解算的可靠性。矿井通风阻力系数作为实时通风网络解算的决定性参数,准确无误的通风阻力系数应使得实时矿井通风网络风量解算结果与监测系统的传感器风量示值保持一致。通风阻力系数可以通过测量来获取,但是对于大型复杂通风系统,测量的巷道多达上百条,工作难度大。在实际中,往往只测量部分巷道的通风阻力系数,同时测量的准确性会受到井下生产活动的影响,仪器本身也会存在一定误差。另外,通风阻力系数也可利用经验公式获取,但经验公式无法解决通用性和精准性的矛盾。邓立军提出使用传统的遗传算法对风阻系数进行反演,但传统的启发式算法容易陷入局部最优,且难以解决高维问题。上述问题制约着通风阻力系数的获取和准确性,直接限制了通风系统数字孪生的程度。因此,提出使用深度强化学习人工智能算法来对通风风阻系数进行反演,对通风系统安全管理、数字化和智能化具有重要意义。


技术实现思路

1、本专利技术的目的是提供一种基于强化学习的通风阻力系数反演方法,通过智能体不断地试错学习,自动搜索到最优的通风阻力系数,为实时通风网络解算提供技术支持。

2、为实现上述目的,本专利技术采用以下技术方案:

3、专利技术了一种基于强化学习的通风阻力系数反演方法,具体步骤如下:

4、s1:定义智能体交互环境env,其环境其中mvss为通风仿真系统,r为奖励函数,为监测风量值,rew=r(st,at)表示在环境状态st下采取动作at时环境的奖励反馈值,st为t-1时刻的通风阻力系数rt-1={r(t-1)1,r(t-1)2,r(t-1)3,…r(t-1)n},at为t时刻智能体输出的通风阻力系数;

5、s2:定义智能体,智能体agent包括θ参数化的策略神经网络actor-net和w参数的价值神经网络critic-net,actor-net根据当前的环境状态st输出通风阻力系数分布πθ,at取样于πθ,critic-net根据当前的状态st输出状态价值vt;

6、s3:初始化智能体参数和学习训练参数,其中,智能体参数包括网络层数layers、神经元数量sizes、学习率lr,训练参数包括智能体更新最大情节数max-epochs,批训练情节数batch-epoch、批训练情节步长steps、经验回放大小buffer-sizes、折扣因子γ;

7、s4:收集智能体与环境交互的轨迹数据,收集交互过程中产生的<s,a,rews,πθ(s)>,s为环境状态集合,a为搜索到的通风阻力系数向量集合即动作,rews为奖励值集合,πθ(s)为状态s下的策略神经网络映射的分布;

8、s5:取样采集轨迹数据,计算优势函数更新θ和w,完成max-epochs次智能体策略更新,输出最优阻力系数。

9、在步骤s1中,定义智能体交互环境env,其环境其中mvss为通风仿真系统,r为奖励函数,为监测风量值,r(st,at)表示在环境状态st下采取动作at时环境的奖励反馈值,st为t-1时刻的通风阻力系数分布rt-1={r(t-1)1,r(t-1)2,r(t-1)3,…r(t-1)n},at为t时刻智能体输出的通风阻力系数,所述的奖励函数定义为:

10、

11、式中,wi为权重;metric为同一量纲的评价指标,用来评价与间的距离或者误差;为在at阻力系数分布下通风仿真系统的解算风量,对应风量;α为奖励值缩放因子。

12、在步骤s2中,定义智能体,智能体agent包括θ参数化的策略神经网络actor-net和w参数的价值神经网络critic-net,actor-net根据当前的环境状态st输出通风阻力系数分布πθ,at取样于πθ,critic-net根据当前的状态st输出状态价值vt,所述的神经网络结构为多层感知机(mlp)模型,包括输入层(input layer)、隐藏层(hidden layers)、激活层(activation layer)和输出层(output layer);智能体根据当前的环境状态st输出相应的at定义为:

13、

14、式中,ai通风阻力系数。

15、在步骤s3中,初始化智能体参数和学习训练参数,其中,智能体参数包括网络层数layers、神经元数量sizes、学习率lr,训练参数包括智能体更新最大情节数max-epochs,批训练情节数batch-epoch、批训练情节步长steps、经验回放大小buffer-sizes、折扣因子γ。

16、在步骤s4中,采集智能体与环境交互的轨迹数据,收集交互过程中产生的<s,a,rews,πθ(s)>,s为环境状态集合,a为搜索到的通风阻力系数集合即动作,rews为奖励值集合,πθ(s)为状态s下的策略神经网络映射的分布。

17、在步骤s5中,取样采集轨迹数据,计算优势函数更新θ和w,完成max-epochs次智能体策略更新,输出最优阻力系数;

18、具体表述为:

19、s5.1:取样一次交互信息:

20、d={τ1,τ2,τ3,…,τbatch-epoch}                             (3)

21、

22、式中,d为第i个轨迹集合;τ为一段交互轨迹;batch-epoch为批训练情节;st表示t时刻的环境状态;at为t时刻的动作对应于通风阻力系数;rewt为t时刻的奖励值;为t时刻下的策略分布;

23、s5.2:计算优势函数

24、

25、

26、式中,γ为折扣因子;steps为情节步长;λ为衰减因子;rewt为t时刻的奖励值;v(st)为critic-net网络的映射值;

27、s5.3:更新actor-net网络参数θ:

28、

29、

30、

31、式中,loss为损失函数;ε为剪切因子;lr为学习率;

32、s5.4:更新critic-net网络参数w:

33、

34、

35、s5.5:更新max-epochs次网络更新,输出最优训练结果。

36、本专利技术是一种基于深度强化学习的通风阻力系数反演方法,为自动获取矿井通风阻力系数。矿井通风阻力系数作为实时通风网络解算的决定性参数,准确无误的通风阻力系数应使得实时矿井通风网络风量解算结果与监测系统的传感器风量示值保持一致。对于大型复杂通风系统,测量的巷道多达上百条,工作难度大。另外,通风阻力系数也可利用经验公式获取,但经验公式无法解决通用性和精准性的矛盾。上述问题制约着通风阻力系数的获取和准确性,直接限制了通风系统数字孪生的程度。因此,提出本专利技术基于深度本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的通风阻力系数反演方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤S1中,定义智能体交互环境env,其环境其中MVSS为通风仿真系统,R为奖励函数,为监测风量值,R(St,At)表示在环境状态St下采取动作At时环境的奖励反馈值,St为t-1时刻的通风阻力系数分布rt-1={r(t-1)1,r(t-1)2,r(t-1)3,r(t-1)n},At为t时刻智能体输出的通风阻力系数,所述的奖励函数定义为:

3.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤S2中,定义智能体,智能体Agent包括θ参数化的策略神经网络Actor-Net和w参数的价值神经网络Critic-Net,Actor-Net根据当前的环境状态St输出通风阻力系数分布πθ,At取样于πθ,Critic-Net根据当前的状态St输出状态价值Vt,所述的神经网络结构为多层感知机(MLP)模型,包括输入层(input layer)、隐藏层(hidden layers)、激活层(activationlayer)和输出层(output layer);智能体根据当前的环境状态St输出相应的At定义为:

4.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤S3中,初始化智能体参数和学习训练参数,其中,智能体参数包括网络层数layers、神经元数量sizes、学习率lr,训练参数包括智能体更新最大情节数max-epochs,批训练情节数batch-epoch、批训练情节步长steps、经验回放大小buffer-sizes、折扣因子γ。

5.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤S4中,采集智能体与环境交互的轨迹数据,收集交互过程产生的<S,A,rews,πθ(S)>,S为环境状态集合,A为搜索到的通风阻力系数集合即动作,rews为奖励值集合,πθ(S)为状态S下的策略神经网络映射的分布。

6.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤S5中,取样采集轨迹数据,计算优势函数A,更新θ和w,完成max-epochs次智能体策略更新,输出最优阻力系数;

...

【技术特征摘要】

1.一种基于深度强化学习的通风阻力系数反演方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤s1中,定义智能体交互环境env,其环境其中mvss为通风仿真系统,r为奖励函数,为监测风量值,r(st,at)表示在环境状态st下采取动作at时环境的奖励反馈值,st为t-1时刻的通风阻力系数分布rt-1={r(t-1)1,r(t-1)2,r(t-1)3,r(t-1)n},at为t时刻智能体输出的通风阻力系数,所述的奖励函数定义为:

3.根据权利要求1所述的一种基于深度强化学习的通风阻力系数反演方法,其特征在于:在步骤s2中,定义智能体,智能体agent包括θ参数化的策略神经网络actor-net和w参数的价值神经网络critic-net,actor-net根据当前的环境状态st输出通风阻力系数分布πθ,at取样于πθ,critic-net根据当前的状态st输出状态价值vt,所述的神经网络结构为多层感知机(mlp)模型,包括输入层(input layer)、隐藏层(hidden layers)、激活层(activat...

【专利技术属性】
技术研发人员:刘剑曹鹏刘丽王东董勇刘学
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1