一种基于深度强化学习的近端策略优化方法技术

技术编号：42109808 阅读：17 留言：0更新日期：2024-07-25 00:32

本发明专利技术提出一种基于深度强化学习的近端策略优化方法，包括以下步骤：步骤1：基于深度强化学习算法构建多智能体柔性动作评价框架；步骤2：利用弹性增强算法对多智能体柔性动作评价框架进行弹性增强；步骤3：训练弹性增强后的多智能体柔性动作评价框架，利用训练好的弹性增强后的多智能体柔性动作评价框架对近端策略进行优化。本发明专利技术引入一种基于智能体的混合柔性动作评价算法，用于并联无功补偿器的离线定位、分级和在线控制，以提高其电压恢复能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电力系统，尤其是一种基于深度强化学习的近端策略优化方法。

技术介绍

1、由于长时间停电、多设备故障、极端天气和人为攻击等威胁，电力系统的脆弱性问题变得越来越明显。为了有效解决这些问题，我们需要采取措施提高电力系统的恢复能力。在极端事件和设备故障期间及之后维持电压稳定对增强电力系统的稳定性和恢复能力，并预防级联故障而言至关重要。在发生n-k(k>1)突发事件即多重突发事件时，通过提供无功功率支持以保持电压约束，并合理部署并联无功补偿器，成为一种有前景的解决方案。因此，制定一种在极端事件期间和之后规划并联无功补偿器部署以维持电压约束的方法对于提升电力系统的弹性具有相当的意义。

技术实现思路

1、本专利技术解决了多线路故障期间的电压违规的问题，提出一种基于深度强化学习的近端策略优化方法，引入一种基于智能体的混合柔性动作评价算法，用于并联无功补偿器的离线定位、分级和在线控制，以提高其电压恢复能力。多智能体框架通过学习以前的经验并接受训练，最终确定并联无功补偿器适当的位置和大小，...

【技术保护点】

1.一种基于深度强化学习的近端策略优化方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1具体包括以下步骤：

3.根据权利要求1所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述深度强化学习算法为PPO算法。

4.根据权利要求2所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1-1具体包括以下步骤：

5.根据权利要求4所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1-1-2具体包括以下步骤：

6.根据权利要求1-5任一项所...

【技术特征摘要】

1.一种基于深度强化学习的近端策略优化方法，其特征是，包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1具体包括以下步骤：

3.根据权利要求1所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述深度强化学习算法为ppo算法。

4.根据权利要求2所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1-1具体包括以下步骤：

5.根据权利要求4所述的一种基于深度强化学习的近端策略优化方法，其特征是，所述步骤1-1-2具体包括以下步骤：

6.根据权利要求1-5任一项所述的一种基于深度强化学习的近端策略优化方...

【专利技术属性】
技术研发人员：石新聪，郭创新，陈垣希，杜承深，胡轶婕，徐华廷，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人