【技术实现步骤摘要】
一种基于DDPG深度强化学习算法的空间热离子核电源控制方法
[0001]本专利技术涉及DDPG深度强化学习算法的应用,具体涉及空间热离子核电源的DDPG深度强化学习控制方法。
技术介绍
[0002]从20世纪90年代中后期开始,随着计算机技术的快速发展,计算机运算速度大幅提升,人工智能的研究迎来了快速发展。2011年,人们将传统的神经网络进行了一定的算法和网络连接上的改造,诞生了“深度学习”技术。在强化学习领域,采用深度神经网络可以拟合策略函数、值函数、Q函数等,同时可以直接以图像、视频等数据作为输入,提高了强化学习算法的通用性。DDPG算法(深度确定性策略梯度算法)是一种无模型的深度强化学习算法,能够解决连续的动作空间下的控制问题,可以从环境的原始数据获取输入并直接得到输出。
[0003]空间核电源系统采用控制转鼓实现反应堆的功率控制以及事故下的停堆功能,需要配置良好的自动控制系统。传统的自动控制系统设计时往往需要对核电源系统进行简化建模,之后针对每一个控制回路进行PID经验调参,寻找最优的参数组合,工作量较大。采 ...
【技术保护点】
【技术特征摘要】
1.一种基于DDPG深度强化学习算法的空间热离子核电源控制方法,其特征在于:包括以下步骤:步骤1:搭建并初始化空间热离子核电源系统的环境,确定环境的状态空间和动作空间;深度强化学习算法的训练过程通过环境与智能体的交互实现,具体过程如下式所示:(S1,A1,R1,S2)
→
(S2,A2,R2,S3)
→…→
(S
t
,A
t
,R
t
,S
t+1
)智能体接收环境中的观测变量S
t
,采取DDPG深度强化学习算法得到动作量A
t
并作用到环境中,环境的状态发生改变,转移到S
t+1
,并返回一定的奖励值R
t
;所述环境包括空间热离子核电源系统中子物理模型、热工水力模型、冷却剂系统模型和控制转鼓模型,这些模型由一系列耦合的非线性微分方程组组成;在深度强化学习的训练过程中只需给定空间热离子核电源系统的状态空间即输出量和动作空间即输入量,即完成环境的搭建;环境采用连续的状态空间,包括空间热离子核电源系统核功率误差值,核功率误差值的增量以及核功率的累计误差值,并对核功率误差值、核功率误差值的增量以及核功率的累计误差值进行归一化处理,如下式所示:累计误差值进行归一化处理,如下式所示:式中:E——空间热离子核电源系统的核功率相对误差E
t
——空间热离子核电源系统t时刻的核功率相对误差P
t
——空间热离子核电源系统t时刻的核功率P
d
——空间热离子核电源系统的核功率目标值S
t
——t时刻环境的状态空间环境采用连续的动作空间,为当前时间步控制转鼓的控制量,并对控制量做归一化处理,如下式所示:A
t
=U
t
式中:A
t
——t时刻环境的动作空间U
t
——t时刻控制转鼓的控制量环境搭建完成后,对环境进行初始化,设定状态空间初始值S0与动作空间初始值A0,如下式所示:S0=[0.05,0,0]A0=0为评价智能体的动作对环境的影响,考虑到最小化和功率误差并尽量采用最小的控制量,同时考虑智能体训练过程的附加奖励,设计奖励函数如下式表示:R
t
=
‑
(k
e
E
t2
+k
u
U
t
‑
12
)+r
e
+r
u
+r
d
+r
s
式中前两项表示针对误差和控制量的惩罚项:
R
t
——t时刻的奖励函数k
e
——误差项权重系数k
u
——控制量项权重系数后四项表示满足特定条件时的附加奖励值:后四项表示满足特定条件时的附加奖励值:后四项表示满足特定条件时的附加奖励值:后四项表示满足特定条件时的附加奖励值:式中:R
e
——基于误差的额外奖励E
set
——误差奖励阈值R
u
——基于控制量的额外奖励U
set
——控制量奖励阈值R
d
——训练中途停止的惩罚IsDone——训练中途停止的标志r
s
——基于每轮训练时长的奖励项k
s
——训练时间奖励系数T
f
——每轮训练的时间步长T
s
——每轮训练的总时间步骤2:构建actor神经网络和critic神经网络用于拟合策略函数和值函数;DDPG深度强化学习算法中包括策略函数π(S)和值函数Q(S,A),分别采用actor神经网络和critic神经网络进行拟合;actor神经网络输入为环境的状态空间,输出为连续分布的一维动作空间,由多层神经网络结构组成;actor神经网络的输入层为环境的状态空间,包含3个神经元;隐含层包括3层全连接层,每层具有128个神经元,激活函数采用relu函数;输出层采用tanh激活函数进行归一化,并乘以比例系数u
max
,得到[
‑
u
max
,u
max
]区间上的一维连续动作空间;critic神经网络输入为环境的状态空间以及actor神经网络的动作空间,输出为值函数的估计值,具有...
【专利技术属性】
技术研发人员:苏光辉,傅江涵,金钊,王成龙,田文喜,秋穗正,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。