一种基于Q学习的核电蒸汽发生器水位控制方法技术

技术编号:25548803 阅读:47 留言:0更新日期:2020-09-08 18:47
本发明专利技术提供一种基于Q学习的核电蒸汽发生器水位控制方法,属于核电控制与仿真技术领域,该方法包括:通过Q学习方法建立给水流量的动作值函数,根据控制指令和反馈参数,结合ε‑贪婪策略,得到适宜的蒸汽发生器给水流量;进一步,按所述给水流量对蒸汽发生器水位进行控制,并根据系统的反馈更新动作值函数。本发明专利技术能够在运行过程中,自主学习被控对象的特性,对给水流量动作值函数进行优化,从而实现传统控制方法难以实现的自学习和自寻优控制问题,使得随着学习时间的增加,水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变及时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高了蒸汽发生器的运行性能。

【技术实现步骤摘要】
一种基于Q学习的核电蒸汽发生器水位控制方法
本专利技术属于核电控制与仿真
,具体涉及一种基于Q学习的核电蒸汽发生器水位控制方法。
技术介绍
蒸汽发生器是压水堆核电系统的重要组成部分,是核岛内三大设备之一。它将反应堆产生的热量传递给二次侧,产生的蒸汽经汽水分离器干燥后推动汽轮发电机发电。蒸汽发生器水位是核电系统运行的重要监视参数之一,直接影响核电系统的运行安全和蒸汽品质。蒸汽发生器水位调节的目的,就是为了维持二次侧水位时刻满足安全运行需求,水位既不能过高,也不能过低,否则将给核电系统带来安全隐患,低负荷下蒸汽发生器水位失控导致的跳堆问题是造成安全事故的主要原因之一。因此,压水堆核电系统蒸汽发生器的水位控制尤为重要。非线性、时变性、“膨胀”和“收缩”等特性致使蒸汽发生器水位控制成为难题。传统PID控制器在水位控制过程中具有响应速度慢,变指令时震荡较大,难以抑制虚假水位等问题,难以在全功率范围内取得令人满意的性能品质。近年来,出现了Q学习、SARSA、DQN等多种强化学习方法,用于解决智能体与环境之间的交互问题,交互过程中通过学习策略使回报最大化来实现特定目标。“试错”则是强化学习的核心思想,通过试错得到学习经验,从而能更好与外界环境交互。由于该方法随着学习时间的增长,学习经验越来越丰富,其响应能力也越来越快,引起了众多学者和工程技术人员的研究兴趣。很多基于Q学习的控制方法取得了很好的控制效果。然而,Q学习方法在蒸汽发生器控制及相关领域的应用却很少。
技术实现思路
针对现有技术存在的不足,本专利技术提供一种基于Q学习的核电蒸汽发生器水位控制方法,使得蒸汽发生器控制系统随学习时间的增长,水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变即时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高蒸汽发生器系统运行的稳定性。为了实现上述目的,本专利技术所述一种基于Q学习的核电蒸汽发生器水位控制方法,根据水位误差、水位误差的导数,蒸汽流量,给水流量,蒸汽流量与给水流量的差值,通过Q学习方法得到核电蒸汽发生器给水流量的动作值函数,结合ε-贪婪策略,从而计算出适宜的蒸汽发生器给水流量,并按照所述给水流量对蒸汽发生器水位进行控制。所述一种基于Q学习的核电蒸汽发生器水位控制方法,具体实现步骤如下:步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;步骤2:确定核电蒸汽发生器的当前时刻给水流量at;步骤2.1:获取蒸汽发生器当前的状态,计算当前时刻状态参数st;步骤2.2:将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入,查找所有可选择的给水流量a的价值,即Q值,利用ε-贪婪策略计算控制器输出,即当前时刻给水流量at;步骤3:将所述当前时刻给水流量at分配至给水阀门,实现蒸汽发生器的给水流量控制;步骤4:更新动作值函数Q(s,a);步骤4.1:获取蒸汽发生器下一时刻状态参数st+1,计算瞬时奖励值R;步骤4.2:根据所述瞬时奖励值R对Q表在s=st,a=at处的值,即Q(st,at)进行更新;步骤5:使用窗口平均方法计算控制获得的平均奖励值若所述平均奖励值小于设定的目标奖励值,令st=st+1,跳转至步骤2,进行迭代;否则,迭代结束,完成核电蒸汽发生器水位控制训练。进一步地,所述步骤1中Q表大小为n×m,n为离散化后的状态总数,m为离散化的动作总数;Q表使用状态参数s与给水流量a作为索引,输出状态s下执行a的Q值。进一步地,所述步骤2.1中核电蒸汽发生器状态包括:当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的给水流量差值,经过离散化后获得当前时刻状态参数st。进一步地,所述步骤2.2中利用的ε-贪婪策略如下:其中,randoma是选择随机给水流量控制指令,用于选择使Q值最大的给水流量a,rand是随机数,ε是随机因子,用于避免在训练动作值函数时发生过拟合。进一步地,所述步骤4.1中的瞬时奖励值R定义如下:其中,e表示蒸汽发生器的水位误差,表示蒸汽发生器水位误差的变化率,x、y、z均为控制学习速度的常数,数值随训练效果的改善而减小,且满足x<y<z,当水位误差小于z时,奖励只与误差的大小有关,而当水位误差超出一定范围时,使用误差的变化率对瞬时奖励值进行补偿,使得能够快速纠正误差的动作同样能够获得较高奖赏,从而提升Q学习控制器的训练速度。进一步地,所述步骤4.2中Q表的单点Q(st,at)更新规则如下:其中,st是蒸汽发生器当前时刻状态参数,at是当前时刻给水流量,st+1是蒸汽发生器下一时刻状态参数,at+1是下一时刻给水流量,α是学习率,R是蒸汽发生器在st下执行at指令后,进入下一时刻状态st+1得到的瞬时奖励值,γ是回报衰减率。进一步地,使用与Q学习控制器串联的给水限制模块对给水流量行修正,降低Q学习控制器可能产生的错误输出导致模型异常的频率。本专利技术的有益技术效果:本专利技术首次提出将Q学习技术应用于核电蒸汽发生器水位控制,来解决传统PID控制器在水位控制过程中出现响应速度慢,变指令时震荡较大,以及难以抑制虚假水位等问题。该方法能够在运行过程中,自主学习被控对象的特性,对给水流量动作值函数行优化,从而实现传统控制方法难以实现的自学习和自寻优控制问题,使得蒸汽发生器的水位响应速度随学习时间的增加而不断提高,从而可以大幅提高水位控制效果。此外,解决了传统控制方法在控制过程中出现的较大震荡问题,消除了部件衰退对蒸汽发生器带来的影响,提高蒸汽发生器的运行稳定性。附图说明图1为本专利技术实施例提供的方法流程图;图2为一种传统蒸汽发生器给水控制结构;图3为本专利技术实施例提供的基于Q学习的蒸汽发生器给水控制结构;图4为本专利技术实施例提供的动作动作值函数表(Q表)结构图;图5为本专利技术实施例提供的稳态下两种控制方法水位控制比较结果;图6为本专利技术实施例提供的变蒸汽负荷下两种控制方法水位控制比较结果。具体实施方式针对现有控制技术响应速度慢,对于复杂系统控制器调参困难,变指令时存在较大震荡,难以抑制虚假水位等缺点,本专利技术的解决思路是将Q学习方法应用于核电蒸汽发生器水位控制,采用Q学习方法来构建核电蒸汽发生器水位控制器,使得随着学习时间的增加,给水控制器水位控制效果不断改善,并且能够根据蒸汽发生器状况的改变及时做出调整,在一定程度上抑制设备老化对水位控制造成的影响,提高了蒸汽发生器装置的稳定性。本专利技术提出了一种基于Q学习的核电蒸汽发生器水位控制方法,包括:给水限制模块,根据水位误差以及蒸汽发生器状态,对给水进行修正,降低Q学习控制器可能产生的错误输出引发的问题。Q学习控制器,根据水位本文档来自技高网...

【技术保护点】
1.一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:包括以下步骤:/n步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;/n步骤2:确定核电蒸汽发生器的当前时刻给水流量a

【技术特征摘要】
1.一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:包括以下步骤:
步骤1:建立蒸汽发生器部件数学模型作为训练环境,创建二维表(Q表)对动作值函数Q(s,a)进行表示,其中,s为状态参数,a为给水流量;
步骤2:确定核电蒸汽发生器的当前时刻给水流量at;
步骤2.1:获取蒸汽发生器当前的状态,计算当前时刻状态参数st;
步骤2.2:将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入,查找所有可选择的给水流量a的价值,即Q值,利用ε-贪婪策略计算控制器输出,即当前时刻给水流量at;
步骤3:将所述当前时刻给水流量at分配至给水阀门,实现蒸汽发生器的给水流量控制;
步骤4:更新动作值函数Q(s,a);
步骤4.1:获取蒸汽发生器下一时刻状态参数st+1,计算瞬时奖励值R;
步骤4.2:根据所述瞬时奖励值R对Q表在s=st,a=at处的值,即Q(st,at)进行更新;
步骤5:使用窗口平均方法计算控制获得的平均奖励值若所述平均奖励值小于设定的目标奖励值,令st=st+1,跳转至步骤2,进行迭代;否则,迭代结束,完成核电蒸汽发生器水位控制训练。


2.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤1中Q表大小为n×m,n为离散化后的状态总数,m为离散化的动作总数;Q表使用状态参数s与给水流量a作为索引,输出状态s下执行a的Q值。


3.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法,其特征在于:所述步骤2.1中核电蒸汽发生器状态包括:当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的...

【专利技术属性】
技术研发人员:齐义文陈禹西黄捷李献领张弛岳文豪邢宁赵秀娟
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1