一种基于强化学习的逆变器优化控制方法技术

技术编号:29306859 阅读:45 留言:0更新日期:2021-07-17 01:54
本发明专利技术公开了一种基于强化学习的逆变器优化控制方法,其步骤包括:1、建立强化学习控制模块和逆变器数学模型;2、建立强化学习的本地奖励;3、训练进行逆变器优化控制的强化学习模块;4、应用强化学习模块进行逆变器优化控制。本发明专利技术能克服逆变器产生的系统频率和电压偏差问题,从而能有效进行频率恢复和电压调节,以保证逆变器的稳定运行。以保证逆变器的稳定运行。以保证逆变器的稳定运行。

An optimal control method of inverter based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的逆变器优化控制方法


[0001]本专利技术涉及一种基于强化学习的逆变器优化控制方法,属于电力系统领域。

技术介绍

[0002]近年来,人们处在一个“移动”的时代,移动办公,移动通讯,移动休闲和娱乐。在移动的状态中,人们不仅需要由电池或电瓶供给的低压直流电,同时更需要在日常环境中不可或缺的220伏交流电,因此对于逆变器的需求也呈指数级增长。一方面,人们不断开发新的逆变器类型;另一方面,各种逆变器的优化策略也使得逆变器的效率和适用性大大增加。然而,采用传统的逆变器控制在进行电压转换时会产生频率、电压幅值偏差甚至会产生环流等,这已经成为影响逆变器功能的精确性和稳定性的重大问题。随着机器学习的发展,强化学习的优势逐渐凸显出来,它可以智能的根据环境提供的强化信号对产生动作的好坏进行评价,通过这个行动

评价环境获得知识,改进行动方案以适应环境。
[0003]传统的逆变器控制从工作原理是来看可以认为是由开关三极管和二极管组成,因此存在正向管压降和开关延迟时间,同时为了防止逆变器上下臂短路,需要在PWM门信号上设定死区时间。由于这些原因,当系统负荷发生变化的时候,不能保证逆变器频率和电压稳定在额定值。因此,如何在传统的逆变器控制的基础上对逆变器频率和电压进行优化控制成为了研究中的难题。

技术实现思路

[0004]针对现有技术中的上述不足之处,本专利技术提供一种基于强化学习的逆变器优化控制方法,以期能克服逆变器产生的系统频率和电压偏差问题,并能对逆变器频率和电压进行快速优化和控制,以保证优化控制的精确性和稳定性。
[0005]本专利技术为达到上述专利技术目的,采用如下技术方案:
[0006]本专利技术一种基于强化学习的逆变器优化控制方法的特点在于,包括以下步骤:
[0007]步骤1、构建逆变器数学模型和强化学习控制模块,其中,所述强化学习控制模块包括进行策略运算的策略体和动作执行的执行体;
[0008]步骤1.1、逆变器数学模型的建模:
[0009]令所述逆变器数学模型的输入为表示所述执行体第n次训练时第t次决定的动作;令所述逆变器数学模型的输出状态为并反馈给所述执行体和策略体,其中,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流频率,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流电压;
[0010]步骤1.2、强化学习控制模块的建模:
[0011]所述强化学习控制模块的策略体由两层神经元网络组成,其输入为状态输出为执行所有动作集合A的概率π(A);
[0012]所述强化学习控制模块的执行体包括交互模块和奖励计算模块;所述交互模块根
据策略体输出的概率π(A),利用随机选取的函数决定实际执行动作并输出给所述逆变器数学模型,其中,所述奖励计算模块根据逆变器数学模型的状态计算第n次训练时的第t+1次动作的本地奖励r(t+1)
n
,并在第n次训练的存储轨迹τ
n
中增加第t+1次动作产生的轨迹;
[0013]步骤2、根据逆变器数学模型对强化学习控制模块进行训练;
[0014]步骤2.1、在所述策略体的两层神经网络中,用θ代表两层神经网络的参数集合,并随机初始化;定义策略体的第n次训练两层神经网络的输入、输出策略为π
n
(θ);初始化n=1;
[0015]步骤2.2、初始化t=0,并随机初始化动作将动作输入给逆变器数学模型并输出状态给策略体和执行体;
[0016]步骤2.3、执行体接收状态并计算本地奖励r(t+1)
n
后,在第n次训练的存储轨迹τ
n
中增加第t+1次动作产生的轨迹;
[0017]步骤2.4、策略体接收状态并根据策略π
n
(θ)计算采取动作的概率π(A),并将概率π(A)输出给强化学习控制模块的执行体;
[0018]步骤2.5、执行体接收概率π(A),执行随机选取的函数并输出实际采取的动作给逆变器数学模型;
[0019]步骤2.6、逆变器数学模型接收所述实际采取的动作并输出状态给策略体和执行体;
[0020]步骤2.7、执行体接收状态并计算本地奖励r(t+2)
n
后,在第n次训练的存储轨迹τ
n
中增加第t+2次动作产生的轨迹;
[0021]步骤2.8、判断是否成立,若成立,则执行步骤2.9;否则,将t+1赋值给t,并执行步骤2.4;其中,F为逆变器期望频率,F
threshold
为逆变器频率允许的最大误差值,U为逆变器期望电压,U
threshold
为逆变器电压允许的最大误差值,R(τ
n
)为轨迹τ
n
的总奖励,i为进行累加运算的变量,R为单次轨迹总奖励的期望值;
[0022]步骤2.9、利用式(1)得到所有存储轨迹的期望回报奖励R
θ

[0023][0024]式(1)中,p
θ

n
)为轨迹τ
n
产生的概率,并有:
[0025][0026]式(2)中,为状态下逆变器数学模型产生的概率,为状态下根据输入、输出策略π
n
(θ)选择动作的概率;
[0027]利用式(3)得到期望回报奖励R
θ
对参数集合θ求偏导的优化策略函数
[0028][0029]式(3)中,为偏导运算,N为存储轨迹的最大个数;
[0030]步骤2.10、将n+1赋值给n,并更新策略π
n
(θ)中参数集合θ为后,判断n≤N是否成立,若成立,则执行步骤2.2;否则,表示强化学习训练过程结束,保存更新后的参数集合作为最优参数集合θ
*
,并得到最优策略π(θ
*
),其中,ε为比例系数;
[0031]步骤3、根据强化学习模块进行逆变器优化控制的应用;
[0032]步骤3.1、初始化t=1;
[0033]步骤3.2、强化学习控制模块策略体接收逆变器的实时状态[U
t
,f
t
];
[0034]步骤3.3、策略体根据最优策略π(θ
*
)计算采取动作的概率π(A),并将概率π(A)输出给强化学习控制模块的执行体;
[0035]步骤3.4、执行体接收概率π(A),执行决策并输出实际采取的动作a
t
给逆变器;
[0036]步骤3.5、逆变器接收动作a
t
并进行优化后,输出下一时刻的状态[U
t+1
,f
t+1
]给策略体;
[0037]步骤3.6、将t+1赋值给t后,执行步骤3.2;
[0038]其中,f
t
为第t次动作后逆变器的实际交流频率,U
t
为第t次动作后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的逆变器优化控制方法,其特征在于,包括以下步骤:步骤1、构建逆变器数学模型和强化学习控制模块,其中,所述强化学习控制模块包括进行策略运算的策略体和动作执行的执行体;步骤1.1、逆变器数学模型的建模:令所述逆变器数学模型的输入为表示所述执行体第n次训练时第t次决定的动作;令所述逆变器数学模型的输出状态为并反馈给所述执行体和策略体,其中,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流频率,为逆变器数学模型执行第n次训练时的第t次动作后的下一时刻的交流电压;步骤1.2、强化学习控制模块的建模:所述强化学习控制模块的策略体由两层神经元网络组成,其输入为状态输出为执行所有动作集合A的概率π(A);所述强化学习控制模块的执行体包括交互模块和奖励计算模块;所述交互模块根据策略体输出的概率π(A),利用随机选取的函数决定实际执行动作并输出给所述逆变器数学模型,其中,所述奖励计算模块根据逆变器数学模型的状态计算第n次训练时的第t+1次动作的本地奖励r(t+1)
n
,并在第n次训练的存储轨迹τ
n
中增加第t+1次动作产生的轨迹;步骤2、根据逆变器数学模型对强化学习控制模块进行训练;步骤2.1、在所述策略体的两层神经网络中,用θ代表两层神经网络的参数集合,并随机初始化;定义策略体的第n次训练两层神经网络的输入、输出策略为π
n
(θ);初始化n=1;步骤2.2、初始化t=0,并随机初始化动作将动作输入给逆变器数学模型并输出状态给策略体和执行体;步骤2.3、执行体接收状态并计算本地奖励r(t+1)
n
后,在第n次训练的存储轨迹τ
n
中增加第t+1次动作产生的轨迹;步骤2.4、策略体接收状态并根据策略π
n
(θ)计算采取动作的概率π(A),并将概率π(A)输出给强化学习控制模块的执行体;步骤2.5、执行体接收概率π(A),执行随机选取的函数并输出实际采取的动作给逆变器数学模型;步骤2.6、逆变器数学模型接收所述实际采取的动作并输出状态给策略体和执行体;步骤2.7、执行体接收状态并计算本地奖励r(t+2)
n
后,在第n次训练的存储轨迹τ
n
中增加第t+2次动作产生的轨迹;步骤2.8、判断是否成立,若成立,则执行步骤2.9;否则,将t+1赋值给t,并执行步骤2.4;其中,F为逆变器期望频率,F
threshold
为逆变器频率允许的最大误差值,U为逆变器期望电压,U
threshold
为逆变器电压允许的最大误差值,R(τ
n
)为轨迹τ
n
的总奖励,i为进行累加运算的变量,R为单次轨迹总奖励的期望值;步骤2.9、利用式(1)得到所有存储轨迹的期望回报奖励R
θ

式(1)中,p
θ

n
)为轨迹τ
n
产生的概率,并有:式(2)中,为状态下逆变器数学模型产生的概率,为状态下根据输入、输出策略π
n
(θ)选择动作的概率;利用式(3)得到期望回报奖励R
θ
对参数集合θ求偏导的优化策略函数

R
θ
:式(3)中,

为偏导运算,N为存储轨迹的最大个数;步骤2.10、将n+1赋值给n,并更新策略π
n
(θ)中参数集合θ为θ+ε

R
θ
后,判断n≤N是否成立,若成立,则执行步骤2.2;否则,表示强化学习训练过程结束,保存更新后的参数集合作为最优参数集合θ
*

【专利技术属性】
技术研发人员:孙伟吕秋硕黄磊朱世睿朱梦雨李奇越李帷韬
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1