【技术实现步骤摘要】
一种核蒸汽供应系统的多目标控制优化方法和装置
[0001]本专利技术涉及核电站自动控制
,具体涉及一种核蒸汽供应系统的多目标控制优化方法和装置。
技术介绍
[0002]随着全球对能源资源和碳减排的需求,核裂变能以其清洁、高密度的特点越来越受到人们的关注。核蒸汽供应系统(Nuclear Steam Supply System,NSSS)是核电站中利用核裂变能产生蒸汽的系统,主要由裂变反应堆核蒸汽发生器组成。典型的核蒸汽供应系统通过蒸汽发生器将裂变反应堆产生的热量传递给二回路系统,从而产生蒸汽流以驱动热负荷装置发电或热电联产。
[0003]现有的核蒸汽供应系统控制几乎都是通过传统的控制方法实现的,例如状态反馈控制方法、滑模控制方法等,然而由于裂变反应堆核蒸汽发生器之间的复杂耦合,其往往需要操纵员的人为干预,增加了操纵员的任务负荷。为了减少人为干预,需要对核蒸汽供应系统的控制技术进行优化。
[0004]当前对核蒸汽供应系统的控制优化技术依赖于对系统动态模型的预测。然而由于核蒸汽供应系统非线性、强耦合的特点,模 ...
【技术保护点】
【技术特征摘要】
1.一种核蒸汽供应系统的多目标控制优化方法,其特征在于,所述方法包括:基于核蒸汽供应系统中待优化的多个控制目标确定优化器的输入参数和输出参数;所述优化器是用于解决多目标控制优化问题的优化程序;基于待优化的多个控制目标、所述优化器的输入参数和输出参数,确定奖励函数;将预设深度学习网络模型和所述奖励函数加载至所述优化器中,并为所述优化器配置事件触发机制;所述事件触发机制是用于根据所述核蒸汽供应系统的预定运行状态触发所述优化器执行的机制;在触发所述优化器执行的情况下,控制所述优化器进行多次迭代,以获得多目标控制优化策略;所述多目标控制优化策略是用于获取预设累积奖励函数值的策略;控制所述优化器基于所述多目标控制优化策略执行控制优化操作,以实现对多个所述控制目标的优化。2.根据权利要求1所述的方法,其特征在于,基于待优化的多个控制目标、所述优化器的输入参数和输出参数,确定所述多个控制目标对应的奖励函数之后,还包括:将所述多目标控制优化问题建模为马尔科夫决策过程,并定义由输入的状态空间、动作空间、状态转移函数、折扣因子和初始状态分布构成的五元组;其中,所述输入的状态空间是基于所述输入参数确定的参数集;所述动作空间是基于所述输出参数确定的参数集;所述状态转移函数是用于根据上一时间步的状态以及选择的动作确定当前时间步的状态的函数;所述折扣因子是用于表征每个时间步获得的奖励值在累积奖励中的重要性;基于所述马尔科夫决策过程确定深度强化学习算法;基于深度强化学习算法所述预设深度学习网络模型。3.根据权利要求2所述的方法,其特征在于,所述预设深度学习网络模型包括第一网络和第二网络;所述控制所述优化器进行多次迭代,以获得多目标控制优化策略,包括:初始化所述第一网络的网络参数和所述第二网络的网络参数;对所述状态空间进行初始化,得到当前状态;针对当前时间步,执行第一处理过程;所述第一处理过程包括:根据所述第一网络输出的策略基于当前状态在所述动作空间选择一个动作,执行所述状态转移函数,得到下个时间步的状态,以及根据所述奖励函数获取当前时间步的奖励值;基于所述折扣因子累积每个时间步的奖励值,并由所述第二网络确定当前累积的奖励值是否小于预设累积奖励函数值;在累积的奖励值小于预设累积奖励函数值的情况下,基于当前时间步的奖励分别更新所述第一网络和第二网络的网络参数,以获得更新后的预设深度学习网络模型,并在下个时间步基于更新后的预设深度学习网络模型重新执行所述第一处理过程;在累积的奖励值大于或等于预设累积奖励函数值的情况下,调用所述预设深度学习网络模型生成所述多目标控制优化策略。4.根据权利要求1
‑
3中任一项所述的方法,其特征在于,所述将预设深度学习网络模型和所述奖励函数加...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。