基于强化学习的模块化多电平变流器的底层控制方法技术

技术编号：41284535 阅读：3 留言：0更新日期：2024-05-11 09:33

本申请涉及一种基于强化学习的模块化多电平变流器的底层控制方法，获取环境的状态观测和奖励，并将状态观测和奖励输入至智能体中，得到智能体输出的动作以对模块化多电平变流器进行底层控制，环境的状态观测和奖励基于动作发生变化，基于变化后的状态观测和奖励进行上述对多电平变流器进行底层控制的迭代循环，直至满足第一预设条件以获得智能体的最优策略，并根据最优策略对模块化多电平变流器进行底层控制，其中第一条件为奖励达到最大值或迭代循环的次数达到预设值，因此通过本申请基于强化学习的模块化多电平变流器的底层控制方法能够实现对多电平变流器的最佳控制，提升多电平变流器的工作性能。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及变流器控制，特别是涉及一种基于强化学习的模块化多电平变流器的底层控制方法。

技术介绍

1、模块化多电平换流器（modular multilevel converter，mmc）是高压直流输电（high voltage direct current，hvdc）系统的核心装置，因其效率高、总谐波失真低、模块化易扩展等优点，在高压直流输电、大规模储能系统等领域得到广泛应用。然而，由于mmc中子模块（sm）的数量庞大，受控对象多，不仅控制算法复杂，而且对控制器的算力有极高的要求。此外，如果子模块投入或旁路状态切换太频繁，会大幅提升开关损耗，损耗较高的器件具有较高的热应力，导致其故障率上升。因此，确保多电平换流器保持高性能工作状态是十分有意义的。

2、强化学习(reinforcement learning，rl)是一种机器学习方法，基本思想是智能体(agent)在环境中通过自我探索和不断交互的过程中获得奖励的刺激，从而学习到获得最大累计奖励值的策略。强化学习的优点在于它可以处理不完全信息的情况，并且可以自我探索和学习，而不依赖于预先定义的规则或模型。然而，强化学习也面临一些挑战，如无法针对不同的环境、不同的任务目标确定合适的奖励/惩罚函数等，使得模块化多电平换流器的工作性能较低。至今也未有基于强化学习的模块化多电平换流器的底层控制方法。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高模块化多电平变流器工作性能的基于强化学习的模块化多电平变流器的底层控制方法。

2、第一方面，本申请提供了一种基于强化学习的模块化多电平变流器的底层控制方法，所述模块化多电平变流器设于环境中，所述方法包括：

3、步骤s1，获取所述环境的状态观测和奖励；

4、步骤s2，将所述状态观测和奖励输入至智能体中，得到智能体输出的动作，所述动作用于对所述模块化多电平变流器进行底层控制；

5、步骤s3，所述环境的状态观测和奖励基于所述动作发生变化，基于变化后的状态观测和奖励进行步骤s1-步骤s2的迭代循环，直至满足第一预设条件以获得智能体的最优策略，所述第一预设条件为：所述奖励达到最大值或所述迭代循环的次数达到预设值；利用所述最优策略以对所述模块化多电平变流器进行底层控制。

6、在其中一个实施例中，所述环境的状态观测包括：模块化多电平变流器的桥臂电流、桥臂电压参考值，模块化多电平变流器中各子模块的电容电压、各子模块的运行状态。

7、在其中一个实施例中，所述奖励通过所述模块化多电平变流器的运行性能参数和奖励函数获取；所述模块化多电平变流器中各子模块包括多个功率器件开关；所述运行性能参数包括桥臂参考电压的跟踪性能参数、各子模块电容电压的平衡性能参数和功率器件开关损耗的优化性能参数；所述奖励函数包括：

8、r(t)=ω1rv(t)+ω2rc(t)+ω3rs(t)；

9、其中，r(t)为所述奖励，ω1为预设的第一常数，rv(t)为桥臂参考电压的跟踪性能参数，ω2为预设的第二常数，rc(t)为各子模块电容电压的平衡性能参数，ω3为预设的第三常数，rs(t)为所述功率器件开关损耗的优化性能参数，t为循环迭代的次数；每一次循环迭代中的所述第一常数相同，每一次循环迭代中的所述第二常数相同，每一次循环迭代中的所述第三常数相同。

10、在其中一个实施例中，所述桥臂参考电压的跟踪性能参数包括：基于桥臂参考电压、桥臂电压和额定直流电压获取的第一参数值。

11、在其中一个实施例中，所述各子模块电容电压的平衡性能参数包括：基于各子模块电容电压之间的最大差值、所述子模块的额定电压以及目标差值获取的第二参数值。

12、在其中一个实施例中，所述功率器件开关损耗的优化性能参数包括：各所述功率器件在t次迭代循环中的闭合状态相较于在t-1次迭代循环中发生变化的数量；t为正整数。

13、在其中一个实施例中，所述动作用于对所述模块化多电平变流器进行底层控制包括：所述动作用于对模块化多电平变流器中各子模块的运行状态进行控制。

14、在其中一个实施例中，所述动作用于对模块化多电平变流器中各子模块的运行状态进行控制包括：

15、基于所述状态观测和所述奖励获取表征所述模块化多电平变流器中各子模块运行状态的二进制数；

16、将所述二进制数转换为目标进制数，所述目标进制数表征为所述动作。

17、第二方面，本申请提供一种基于多轮强化学习的模块化多电平变流器的底层控制方法，所述方法包括多轮智能体训练，每一轮智能体训练包含如上述的基于强化学习的模块化多电平变流器的底层控制方法；同一轮智能体训练为相同的奖励函数，不同轮智能体训练之间为不同的奖励函数；通过不同的奖励函数以进行多轮智能体训练并获得多个最优策略，从所述多个最优策略中选择满足第二预设条件的最优策略作为最终策略以对所述模块化多电平变流器进行底层控制。

18、在其中一个实施例中，所述第二预设条件为：

19、桥臂电压参考和桥臂电压的差≤5%*额定电压，或者，mmc的总谐波thd≤2%；

20、一个桥臂中最大子模块电容电压与最小子模块电容电压之差≤20%*子模块额定电压；

21、各最优策略下所有功率器件开关损耗中的最小值。

22、在其中一个实施例中，

23、每一轮智能体训练中的奖励函数包括r(t)=ω1rv(t)+ω2rc(t)+ω3rs(t)；r(t)为所述奖励，ω1为预设的第一常数，rv(t)为桥臂参考电压的跟踪性能参数，ω2为预设的第二常数，rc(t)为各子模块电容电压的平衡性能参数，ω3为预设的第三常数，rs(t)为功率器件开关损耗的优化性能参数，t为循环迭代的次数；同一轮智能体训练过程中，ω1、ω2和ω3一经设定则不变；不同轮智能体训练过程中，ω1、ω2和ω3不完全相同。

24、第三方面，本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

25、第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

26、第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

27、本申请的基于强化学习的模块化多电平变流器的底层控制方法，相对于现有的mmc底层控制技术具有如下几点优点：

28、1）原理简单，无需对复杂的mmc底层控制系统进行显式地建模；

29、2）该控制方法可离线训练，对在线控制器的算力要求不高；

30、3）该控制方法能够实现对多电平变流器的最佳控制，提升多电平变流器的工作性能。

31、4）在进一步的方案中，奖励函数兼顾桥臂电压跟踪性能、子模块电容电压平衡性能和开关损耗，对开关损本文档来自技高网...

【技术保护点】

1.一种基于强化学习的模块化多电平变流器的底层控制方法，其特征在于，所述模块化多电平变流器设于环境中，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述环境的状态观测包括：模块化多电平变流器的桥臂电流、桥臂电压参考值，模块化多电平变流器中各子模块的电容电压、各子模块的运行状态。

3.根据权利要求1所述的方法，其特征在于，所述奖励通过所述模块化多电平变流器的运行性能参数和奖励函数获取；所述模块化多电平变流器中各子模块包括多个功率器件开关；所述运行性能参数包括桥臂参考电压的跟踪性能参数、各子模块电容电压的平衡性能参数和功率器件开关损耗的优化性能参数；所述奖励函数包括：

4.根据权利要求3所述的方法，其特征在于，所述桥臂参考电压的跟踪性能参数包括：基于桥臂参考电压、桥臂电压和额定直流电压获取的第一参数值。

5.根据权利要求3所述的方法，其特征在于，所述各子模块电容电压的平衡性能参数包括：基于各子模块电容电压之间的最大差值、所述子模块的额定电压以及目标差值获取的第二参数值。

6.根据权利要求3所述的方法，其特征在于，

7.根据权利要求1所述的方法，其特征在于，所述动作用于对所述模块化多电平变流器进行底层控制包括：所述动作用于对模块化多电平变流器中各子模块的运行状态进行控制。

8.根据权利要求2所述的方法，其特征在于，所述动作用于对模块化多电平变流器中各子模块的运行状态进行控制包括：

9.一种基于多轮强化学习的模块化多电平变流器的底层控制方法，其特征在于，所述方法包括多轮智能体训练，每一轮智能体训练包含如权利要求1-8任一项所述的基于强化学习的模块化多电平变流器的底层控制方法；不同轮智能体训练之间为不同的奖励函数，通过不同的奖励函数以进行多轮智能体训练并获得多个最优策略，从所述多个最优策略中选择满足第二预设条件的最优策略作为最终策略以对所述模块化多电平变流器进行底层控制。

10.根据权利要求9所述的方法，其特征在于，所述第二预设条件为：

11.根据权利要求9所述的方法，其特征在于，

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于强化学习的模块化多电平变流器的底层控制方法，其特征在于，所述模块化多电平变流器设于环境中，所述方法包括：

4.根据权利要求3所述的方法，其特征在于，所述桥臂参考电压的跟踪性能参数包括：基于桥臂参考电压、桥臂电压和额定直流电压获取的第一参数值。

6.根据权利要求3所述的方法，其特征在于，所述功率器件开关损耗的优化性能参数包括：各所述功率器件在t次迭代循环中的闭合状态相较于在t-1次迭代循环中发生变化的数量；t为正整数。

7.根据权利要求1所述的方法，其特征在于，所述动作用于对所述模块化多电平变...

【专利技术属性】
技术研发人员：马辉，秦赓，郝传统，郭志华，仓文涛，
申请(专利权)人：深圳市德兰明海新能源股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人