【技术实现步骤摘要】
基于深度强化学习的虚拟电厂系统调度方法、装置及终端
[0001]本专利技术涉及虚拟电厂系统调度
,特别是涉及一种基于深度强化学习的虚拟电厂系统调度方法
、
装置及终端
。
技术介绍
[0002]随着电力负荷的种类与可再生能源渗透率不断提高,光伏等分布式可再生能源易受到自然条件影响,存在较大的间歇性与波动性
。
此外,虚拟电厂中可控机组
、
不可控机组
(
风
、
光等分布式能源
)、
储能设备
、
负荷等组件的聚合加剧了系统整体的不确定性及复杂性,使得现有的调度策略难以满足系统的运行要求
。
[0003]针对虚拟电厂系统不确定性高的问题,深度强化学习算法是一类很好的解决方案,此类算法利用大量历史数据捕捉系统的不确定性,是一种基于数据驱动的方法
。
训练好的模型在各种不确定场景下具有较强的泛化能力并且能实时制定调度策略
。
现有近端策略优化算法
( ...
【技术保护点】
【技术特征摘要】
1.
一种基于深度强化学习的虚拟电厂系统调度方法,其特征在于,所述方法包括:对虚拟电厂能源系统的仿真环境进行建模,并将构建的虚拟电厂能源调度优化模型的问题转化为马尔可夫决策过程;基于转化获得的马尔可夫决策过程,对
PPO
算法进行优化获得
PPO
‑
mixclip
算法;基于
PPO
‑
mixclip
算法,根据仿真环境的当前状态输出所对应的动作;对由
PPO
‑
mixclip
算法输出的动作进行修正,以获得修正动作
。2.
根据权利要求1中所述的基于深度强化学习的虚拟电厂系统调度方法,其特征在于,所述对虚拟电厂能源系统的仿真环境进行建模,并将构建的虚拟电厂能源调度优化模型进行问题转化包括:基于混合整数线性规划模型,由虚拟电厂能源系统的环境数据对仿真环境进行建模,获得虚拟电厂能源调度优化模型;将所述虚拟电厂能源调度优化模型对应的虚拟电厂能源调度优化问题转化为马尔可夫决策过程;其中,所述马尔可夫决策过程包括:确定的仿真环境的状态空间
、
智能体的动作空间以及智能体的奖励函数
。3.
根据权利要求2中所述的基于深度强化学习的虚拟电厂系统调度方法,其特征在于,基于转化获得的马尔可夫决策过程,对
PPO
算法进行优化包括:基于确定的仿真环境的状态空间
、
智能体的动作空间以及智能体的奖励函数,对
PPO
算法的策略网络以及评估网络进行优化
。4.
根据权利要求3中所述的基于深度强化学习的虚拟电厂系统调度方法,其特征在于,所述基于确定的仿真环境的状态空间
、
智能体的动作空间以及智能体的奖励函数,对
PPO
算法的策略网络以及评估网络进行优化包括:设定初始参数信息;其中,所述初始参数信息包括:策略初始参数
、
初始价值函数参数以及时间步数;基于所确定的仿真环境的状态空间
、
智能体的动作空间以及智能体的奖励函数,通过
PPO
算法的策略网络利用选择的当前策略与仿真环境交互,收集分别对应每个时间步的样本;其中,所述样本包括:对应时间步的四元组信息,包括:对应时间步的状态
、
对应时间步的动作
、
转移的状态以及对应时间步的奖励;基于各四元组信息计算每个样本的回报,并通过
PPO
算法的评估网络由计算的对应时间步的状态价值函数值计算每个样本对应的优势函数估计值;基于
PPO
算法的最大化式目标函数,根据各四元组信息更新
PPO
算法的策略网络,以获得
PPO
‑
mixclip
算法的策略网络;基于计算的每个样本对应的优势函数估计值,使用均方误差更新
PPO
算法的评估网络,以获得
PPO
‑
mixclip
算法的评估网络
。5.
根据权利要求4中所述的基于深度强化学习的虚拟电厂系统调度方法,其特征在于,基于确定的仿真环境的状态空间
、
智能体的动作空间以及智能体的奖励函数,通过
PPO
算法的策略网络利用选择的当前策略与仿真环境交互,收集分别对应每个时间步的样本包括:由策略网络利用当前策略对从智能体的动作空间选出当前时间步要执行的动作和仿真环境交互,同时当前时间步的仿真环境的状态转移为仿真环境的状态空间中的另一状态,并基于智能体的奖励函数提供对应当前时间步的奖励,以获得对应当前时间步的四元
组
。6.
根据权利要求4中所述的基于深度强化学习的虚拟电厂系统调度方法,其特征在于,基于
PPO
算法的最大化式目标函数,根据各四元组信息更新
PPO
算法的策略网络包括:基于
PPO
算法的目标函数以及采用
sigmoid
...
【专利技术属性】
技术研发人员:陈习辉,宁德军,
申请(专利权)人:中国科学院上海高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。