基于增强探索回退裁剪强化学习的综合能源系统调度方法技术方案

技术编号：42445204 阅读：27 留言：0更新日期：2024-08-16 16:52

本发明专利技术公开了基于增强探索回退裁剪强化学习的综合能源系统调度方法。该方法在深度强化学习算法的理论基础上，设计了新的动作选择策略，将Actor网络输出的高斯分布的概率最大值作为动作。在记忆库中的训练样本数量溢出时根据方差剔除偏离的样本。改进了传统PPO算法训练过程中使用的损失函数，包括裁剪函数、优势函数以及策略熵部分，有效提高抽样效率与策略更新稳定性，增强了探索能力，且加快了训练期间模型的收敛速度。将训练后的模型应用在综合能源系统优化调度上，指导综合能源系统中不同子系统的出力，能有效应对可再生能源出力和负荷的波动，并通过实验证明该方法显著提高了综合能源系统优化调度的经济性和低碳性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于新能源，涉及多能源的调度优化，具体涉及基于增强探索回退裁剪强化学习的综合能源系统调度方法。

技术介绍

1、综合能源系统(integrated energy system, ies)通过对多能源系统的优化设计，将可再生能源、储能和传统能源等多能融合互补，为优化能源系统运行和降低系统能耗提供了新的解决方案。

2、综合能源系统优化调度策略对可再生能源和负荷预测的准确性依赖较强。与此相比，深度强化学习(deep reinforcement learning，drl)方法不需要对可再生能源和负荷进行预测或建模，智能体通过与环境交互来学习策略，找到能够带来最大奖励值的动作，这与ies调度问题的目标是一致的。近端策略优化（proximal policy optimization，ppo）算法作为一种先进的强化学习算法，更适用于ies优化调度问题。但ppo算法裁剪函数约束存在不足，影响了智能体的收敛结果，容易陷入局部最优，进而导致ies调度结果不理想。

技术实现思路

1、针对现有...

【技术保护点】

1.基于增强探索回退裁剪强化学习的综合能源系统调度方法，构建综合能源系统模型，用马尔可夫决策来描述综合能源系统的低碳经济调度问题，搭建Actor、Critic神经网络，初始化网络参数，其特征在于：还包括以下步骤：

2.如权利要求1所述基于增强探索回退裁剪强化学习的综合能源系统调度方法，其特征在于：对于包含光伏发电机组、热电联产机组、电锅炉、燃气锅炉、电储能和热储能的综合能源系统，建立如下目标函数：

3.如权利要求2所述基于增强探索回退裁剪强化学习的综合能源系统调度方法，其特征在于：权重因子通过信息熵理论计算得到。

4.如权利要求1所述基于增强探索回退裁...

【技术特征摘要】

1.基于增强探索回退裁剪强化学习的综合能源系统调度方法，构建综合能源系统模型，用马尔可夫决策来描述综合能源系统的低碳经济调度问题，搭建actor、critic神经网络，初始化网络参数，其特征在于：还包括以下步骤：

3.如权利要求2所述基于增强探索回退裁剪强化学习的综合能源系统调度方法，其特征在于：权重因子通过信息熵理论计算得到。

4.如权利要求1所述基于增强探索回退裁剪强化学习的综合能源系统调度方法，其特征在于：...

【专利技术属性】
技术研发人员：郑凌蔚，王恒，徐秉强，姚萨，楼劲，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人