当前位置: 首页 > 专利查询>广西大学专利>正文

一种新型电力系统分布式协同量子Q学习发电控制方法技术方案

技术编号:32119189 阅读:27 留言:0更新日期:2022-01-29 19:05
本发明专利技术提出一种新型电力系统分布式协同量子Q学习发电控制方法,该方法将分布式协同、量子和Q学习进行结合,用于新型电力系统的发电控制。首先,所提方法中分布式协同方法用于区域内发电厂之间协调。其次,所提方法中量子Q学习方法用于制定最优控制策略。所提新型电力系统的分布式协同量子Q学习发电控制方法能解决新型电力系统的发电控制问题,实现智能发电控制功能,优化控制策略,提高控制效率。提高控制效率。

【技术实现步骤摘要】
一种新型电力系统分布式协同量子Q学习发电控制方法


[0001]本专利技术属于电力系统发电控制领域,涉及人工智能的发电控制方法,适用于新型电力系统与综合能源系统的发电控制。

技术介绍

[0002]现有的自动发电控制一般采用集中控制的控制结构和线性的控制策略,这导致发电系统的鲁棒性和自适应性不强。
[0003]另外,普通的Q学习在复杂数据的情况下迭代效率慢,收敛速率低,在高维数据的情况下容易出现维数灾难。
[0004]因此,提出一种分布式协同量子Q学习方法,能够解决系统鲁棒性和自适应性不强的问题,同时加快Q学习中Q值的收敛速率并消除维数灾难的隐患。

技术实现思路

[0005]本专利技术提出一种新型电力系统分布式协同量子Q学习发电控制方法,该方法将分布式协同、量子和Q学习进行结合,用于新型电力系统的发电控制;所提分布式协同量子Q学习方法在使用过程中的步骤为:步骤(1):将本区域电网中各供电源定义为多智能体;多智能体标记为{agent1,agent2,

,agent
i
},其中i是本区域各供电源的标号;
[0006]多智能体为一个区域中互不相干的独立供电源,各智能体互不干扰,且最终达到等微增率,形成分布式协同;
[0007]步骤(2):设计本区域各智能体的量子本征状态集合和量子本征动作集合;确定各智能体完成动作的奖励值R
i
;考虑用多个量子位来表示状态和动作;设计本区域各智能体的量子本征状态集合S={|s
p/>>,p=0,1,2,

,N
s
},任意状态能够用一组正交的本征状态|s
p
>展开;量子本征动作集合A={|a
q
>,q=0,1,2,

,N
a
},任意动作能够用一组正交的本征动作|a
q
>展开;任意状态|S>和任意动作|A>展开结果分别为:
[0008][0009][0010]其中,双箭头左边以传统形式表示量子态,和分别是在量子形态下的任意状态和在量子形态下某一状态下的任意动作,C
p
和C
q
是概率振幅,|s
p
>,|a
q
>为希尔伯特空间中的单位向量,N
s
和N
a
分别为状态数和动作数;双箭头右边以量子比特形式表示量子态,m和n分别为状态和动作的量子位维数,C
s
和C
a
是概率振幅,|s>和|a>分别为量
子态|s
(m)
>和被观测后坍缩的状态和动作;C
s
和C
a
概率振幅的规范化条件分别为:
[0011][0012][0013]各智能体完成动作的奖励值R
i
由控制性能标准CPS指标确定,R
i
为:
[0014][0015]其中,σ
i
为非负数;CPS1
i
(k)是k时刻智能体i的CPS1值,表征智能发电控制系统CPS1指标的理想值,设置为200%;ACE的1分钟滚动值作为电力系统控制过程的CPS2指标;|ACE
i
(k)|是k时刻智能体i的区域控制误差的绝对值;是智能发电控制系统的控制死区值;ACE死区值的设置是为了阻止ACE频繁地出现过零波动,减少不必要的功率交换;判断ACE是否在死区;如果ACE一直在死区范围内波动,那么控制器所接受到的奖励值不会改变;a
ord

i
(k)是智能发电系统在k时刻所选择的动作值;为功率控制动作为0时的值;N
R
的值为1或0,表明第k次迭代的控制信号是否为反调信号,1表示第k次迭代的控制信号是反调信号,0表示第k次迭代的控制信号是不反调信号;η
1i
、η
2i
、μ
1i
、μ
2i
和ν
1i
、v
2i
是各控制目标的权重;
[0016]步骤(3):根据每个智能体制定相应的使每个状态的预期折扣奖励之和最大化的控制策略;每个智能体要学习一个策略使每个状态的预期折扣奖励之和最大化,从状态到动作的映射是π*:S

A为:
[0017][0018]其中,概率振幅C
a
满足式(4),动作选择策略基于坍缩假设;
[0019]当一个动作被测量时,它将被改变并坍缩为其特征动作之一|a
q
〉,具有相应的概率|<a
q
|A〉|2为:
[0020][0021]其中,当式(2)中的一个动作被测量时,得到|a
q
〉;(|a
q
>)
*
为|a
q
>的转置,其发生概率为|C
q
|2;
[0022]步骤(4):初始化各智能体的量子Q值表中的Q值为|0>,迭代总次数为L,初始迭代
次数为0;
[0023]步骤(5):量子Q学习控制器进行预学习;对于含有多个量子Q学习控制器的电网最优CPS控制问题,需要在控制前期进行群体预学习;
[0024]预学习过程为一个模拟过程,首先搭建一个受控对象的数字仿真系统,用仿真系统代替真实环境,各区域电网的CPS控制器均采用PI控制,获得一个稳定的仿真环境;
[0025]然后将需要进行预学习的量子Q学习控制器与本区域原PI控制构成一种附加控制结构,并用量子Q学习方法进行试错学习,直至控制系统收敛,这个过程中让Q学习控制器在线学习减少对PI控制的依赖,最终获得一个纯量子Q学习控制器;从而,逐个获得各量子Q学习控制器结构;
[0026]最后,预学习结束,保留当前量子Q值矩阵和P概率矩阵数值并投入到真实环境中运行;
[0027]步骤(6):在当前状态下,各智能体执行动作策略指导的动作,获得相应的奖励,通过电力系统中的实时监测系统观察完成动作后的状态,并进行迭代次数的判断;判断当前迭代次数是否等于L;若当前迭代次数等于L,用电力系统中实时监测系统得到的数据计算出当前状态的Q值,输入到量子Q值表中,更新量子Q值表,并改变自身状态到执行动作后的状态,完成一次迭代,迭代次数加1;若当前迭代次数不等于L,迭代完成,得到完成学习后的量子Q值表;
[0028]步骤(7):进行并行状态值更新和概率幅值更新,根据量子Q学习的值函数更新量子Q值表,之后返回步骤(6)再次进行迭代次数的判断;并行状态值更新和概率幅值更新的方法如下:
[0029]量子Q学习|S>本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种新型电力系统分布式协同量子Q学习发电控制方法,其特征在于,该方法将分布式协同、量子和Q学习进行结合,用于新型电力系统的发电控制;所提分布式协同量子Q学习方法在使用过程中的步骤为:步骤(1):将本区域电网中各供电源定义为多智能体;多智能体标记为{agent1,agent2,

,agent
i
},其中i是本区域各供电源的标号;多智能体为一个区域中互不相干的独立供电源,各智能体互不干扰,且最终达到等微增率,形成分布式协同;步骤(2):设计本区域各智能体的量子本征状态集合和量子本征动作集合;确定各智能体完成动作的奖励值R
i
;考虑用多个量子位来表示状态和动作;设计本区域各智能体的量子本征状态集合S={|s
p
>,p=0,1,2,

,N
s
},任意状态能够用一组正交的本征状态|s
p
>展开;量子本征动作集合A={|a
q
>,q=0,1,2,

,N
a
},任意动作能够用一组正交的本征动作|a
q
>展开;任意状态|S>和任意动作|A>展开结果分别为:>展开;任意状态|S>和任意动作|A>展开结果分别为:其中,双箭头左边以传统形式表示量子态,和分别是在量子形态下的任意状态和在量子形态下某一状态下的任意动作,C
p
和C
q
是概率振幅,|s
p
>,|a
q
>为希尔伯特空间中的单位向量,N
s
和N
a
分别为状态数和动作数;双箭头右边以量子比特形式表示量子态,m和n分别为状态和动作的量子位维数,C
s
和C
a
是概率振幅,|s>和|a>分别为量子态|s
(m)
>和被观测后坍缩的状态和动作;C
s
和C
a
概率振幅的规范化条件分别为:率振幅的规范化条件分别为:各智能体完成动作的奖励值R
i
由控制性能标准CPS指标确定,R
i
为:其中,σ
i
为非负数;CPS1
i
(k)是k时刻智能体i的CPS1值,表征智能发电控制系统CPS1指标的理想值,设置为200%;ACE的1分钟滚动值作为电力系统控制过程的CPS2指标;|
ACE
i
(k)|是k时刻智能体i的区域控制误差的绝对值;是智能发电控制系统的控制死区值;ACE死区值的设置是为了阻止ACE频繁地出现过零波动,减少不必要的功率交换;判断ACE是否在死区;如果ACE一直在死区范围内波动,那么控制器所接受到的奖励值不会改变;a
ord

i
(k)是智能发电系统在k时刻所选择的动作值;为功率控制动作为0时的值;N
R
的值为1或0,表明第k次迭代的控制信号是否为反调信号,1表示第k次迭代的控制信号是反调信号,0表示第k次迭代的控制信号是不反调信号;η
1i
、η
2i
、μ
1i
、μ
2i
和ν
1i
、ν
2i
是各控制目标的权重;步骤(3):根据每个智能体制定相应的使每个状态的预期折扣奖励之和最大化的控制策略;每个智能体要学习一个策略使每个状态的预期折扣奖励之和最大化,从状态到动作的映射是π*:S

A为:其中,概率振幅C
a
满足式(4),动作选择策略基于坍缩假设;当一个动作被测量时,它将被改变并坍缩为其特征动作之一|a
q
>,具有相应的概率|<a
q
|A>|2为:其中,当式(2)中的一个动作被测量时,得到|a
q
>;(|a
q
>)
*
为|a
q
>的转置,其发生概率为|C
q
|2;步骤(4):初始化各智能体的量子Q值表中的Q值为|0>,迭代总次数为L,初始迭代次数为0;步骤(5):量子Q学习控制器进行预学习;对于含有多个量子Q学习控制器的电网最优CPS控制问题,需要在控制前期进行群体预学习;预学习过程为一个模拟过程,首先搭建一个受控对象的数字仿真系统,用仿真系统代替真实环境,各区域电网的CPS控制器均采用PI控制,获得一个稳定的仿真环境;然后将需要进行预学习的量子Q学习控制器与本区域原PI控制构成一种附加控制结构,并用量子Q学习方法进行试错学习,直至控制系统收敛,这个过程中让Q学习控制器在线学习减少对PI控制的依赖,最终获得一个纯量子Q学习控制器;从而,逐个获得各量子Q学习控制器结构;最后,预学习结束,保留当前量子Q值矩阵和P概率矩阵数...

【专利技术属性】
技术研发人员:殷林飞曹星辉王耀雄高放
申请(专利权)人:广西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1