一种基于Q学习的核电蒸汽发生器水位控制方法技术

技术编号：25548803 阅读：47 留言：0更新日期：2020-09-08 18:47

本发明专利技术提供一种基于Q学习的核电蒸汽发生器水位控制方法，属于核电控制与仿真技术领域，该方法包括：通过Q学习方法建立给水流量的动作值函数，根据控制指令和反馈参数，结合ε‑贪婪策略，得到适宜的蒸汽发生器给水流量；进一步，按所述给水流量对蒸汽发生器水位进行控制，并根据系统的反馈更新动作值函数。本发明专利技术能够在运行过程中，自主学习被控对象的特性，对给水流量动作值函数进行优化，从而实现传统控制方法难以实现的自学习和自寻优控制问题，使得随着学习时间的增加，水位控制效果不断改善，并且能够根据蒸汽发生器状况的改变及时做出调整，在一定程度上抑制设备老化对水位控制造成的影响，提高了蒸汽发生器的运行性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Q学习的核电蒸汽发生器水位控制方法
本专利技术属于核电控制与仿真
，具体涉及一种基于Q学习的核电蒸汽发生器水位控制方法。
技术介绍
蒸汽发生器是压水堆核电系统的重要组成部分，是核岛内三大设备之一。它将反应堆产生的热量传递给二次侧，产生的蒸汽经汽水分离器干燥后推动汽轮发电机发电。蒸汽发生器水位是核电系统运行的重要监视参数之一，直接影响核电系统的运行安全和蒸汽品质。蒸汽发生器水位调节的目的，就是为了维持二次侧水位时刻满足安全运行需求，水位既不能过高，也不能过低，否则将给核电系统带来安全隐患，低负荷下蒸汽发生器水位失控导致的跳堆问题是造成安全事故的主要原因之一。因此，压水堆核电系统蒸汽发生器的水位控制尤为重要。非线性、时变性、“膨胀”和“收缩”等特性致使蒸汽发生器水位控制成为难题。传统PID控制器在水位控制过程中具有响应速度慢，变指令时震荡较大，难以抑制虚假水位等问题，难以在全功率范围内取得令人满意的性能品质。近年来，出现了Q学习、SARSA、DQN等多种强化学习方法，用于解决智能体与环境之间的交互问题，交互过程中通过学习策略使回报最大化来实现特定目标。“试错”则是强化学习的核心思想，通过试错得到学习经验，从而能更好与外界环境交互。由于该方法随着学习时间的增长，学习经验越来越丰富，其响应能力也越来越快，引起了众多学者和工程技术人员的研究兴趣。很多基于Q学习的控制方法取得了很好的控制效果。然而，Q学习方法在蒸汽发生器控制及相关领域的应用却很少。
技术实现思路
针对现有技术存在...

【技术保护点】
1.一种基于Q学习的核电蒸汽发生器水位控制方法，其特征在于：包括以下步骤：/n步骤1：建立蒸汽发生器部件数学模型作为训练环境，创建二维表(Q表)对动作值函数Q(s，a)进行表示，其中，s为状态参数，a为给水流量；/n步骤2：确定核电蒸汽发生器的当前时刻给水流量a

【技术特征摘要】
1.一种基于Q学习的核电蒸汽发生器水位控制方法，其特征在于：包括以下步骤：
步骤1：建立蒸汽发生器部件数学模型作为训练环境，创建二维表(Q表)对动作值函数Q(s，a)进行表示，其中，s为状态参数，a为给水流量；
步骤2：确定核电蒸汽发生器的当前时刻给水流量at；
步骤2.1：获取蒸汽发生器当前的状态，计算当前时刻状态参数st；
步骤2.2：将所述蒸汽发生器当前时刻状态参数st与给水流量a作为Q表的输入，查找所有可选择的给水流量a的价值，即Q值，利用ε-贪婪策略计算控制器输出，即当前时刻给水流量at；
步骤3：将所述当前时刻给水流量at分配至给水阀门，实现蒸汽发生器的给水流量控制；
步骤4：更新动作值函数Q(s，a)；
步骤4.1：获取蒸汽发生器下一时刻状态参数st+1，计算瞬时奖励值R；
步骤4.2：根据所述瞬时奖励值R对Q表在s＝st，a＝at处的值，即Q(st，at)进行更新；
步骤5：使用窗口平均方法计算控制获得的平均奖励值若所述平均奖励值小于设定的目标奖励值，令st＝st+1，跳转至步骤2，进行迭代；否则，迭代结束，完成核电蒸汽发生器水位控制训练。

2.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法，其特征在于：所述步骤1中Q表大小为n×m，n为离散化后的状态总数，m为离散化的动作总数；Q表使用状态参数s与给水流量a作为索引，输出状态s下执行a的Q值。

3.根据权利要求1所述的一种基于Q学习的核电蒸汽发生器水位控制方法，其特征在于：所述步骤2.1中核电蒸汽发生器状态包括：当前时刻的水位误差、当前时刻的水位误差的变化率、当前时刻的蒸汽流量、前一时刻的给水流量、当前时刻的蒸汽流量与当前时刻的...

【专利技术属性】
技术研发人员：齐义文，陈禹西，黄捷，李献领，张弛，岳文豪，邢宁，赵秀娟，
申请(专利权)人：沈阳航空航天大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人