强化学习动作空间降维方法、系统、设备及介质技术方案

技术编号:40550056 阅读:24 留言:0更新日期:2024-03-05 19:08
本发明专利技术公开了一种强化学习动作空间降维方法、系统、设备及介质,综合考虑新型电力系统中各类可调节资源,构建面向电网实时调度计划编排强化学习训练的若干元动作空间;针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间;考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间;对宏动作空间进行非法动作空间屏蔽,得到屏蔽宏动作空间;基于屏蔽宏动作空间开展强化学习智能体训练,在训练过程中验证屏蔽宏动作空间合理性,若合理,则生成强化学习训练动作空间,否则返回连续动作空间离散化步骤,进行循环迭代,直至生成强化学习训练动作空间。

【技术实现步骤摘要】

本专利技术属于电力调度自动化,具体涉及一种强化学习动作空间降维方法、系统、设备及介质


技术介绍

1、新型电力系统电网运行控制规模呈指数级增长,控制对象由传统的常规机组向源荷双侧各类可调节资源转变。在电网实时调度计划编排业务中,传统实时调度计划编排对象大多是大容量常规发电机组,具有连续调节和控制能力,采用集中控制模式。随着分布式新能源、电动汽车、储能等设备海量接入,为满足功率双向流动和多元负荷用电需要,参与调节对象从单一的常规能源发电机组转变为灵活改造机组、新能源、储能、抽蓄、电动汽车等对象的多电气量调节。在实际运行中,由于负荷预测精度、天气变化、输电线路过载跳闸、设备临时故障等因素,计划编排需要应对不确定性进行快速滚动调整,因此随着控制对象量级变大,逐步开始采用强化学习算法进行电网实时调度计划编排。强化学习算法的求解空间大小为动作空间与状态空间的乘积,其求解的复杂度由动作空间和状态空间共同决定。在不考虑状态空间情况下,连续动作空间会形成无穷大的解空间,成为强化学习算法在连续控制任务训练上的稳定性和性能不佳的根本原因。

2、公开号为cn1159本文档来自技高网...

【技术保护点】

1.强化学习动作空间降维方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述元动作空间包括源侧与荷侧的可调节资源;

3.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间,具体为:

4.根据权利要求3所述的强化学习动作空间降维方法,其特征在于,所述考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间,具体为:

5.根据权利要求2所述的强化学习动作空间降维方法,其特征在于...

【技术特征摘要】

1.强化学习动作空间降维方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述元动作空间包括源侧与荷侧的可调节资源;

3.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间,具体为:

4.根据权利要求3所述的强化学习动作空间降维方法,其特征在于,所述考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间,具体为:

5.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述对宏动作空间进行非法动作空间屏蔽,得到屏蔽宏动作空间,具体为:

6.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述验证屏蔽宏动作空间合理性,具体为:

7.强化学习动作空间降维系统,其特征在于,包括:

8.根据权利要求7所述的强化学习动作空间降维系统,其特征在于,所述元动作空间构建模块中,元动作空间包括源侧与荷侧的可调节资源;

9.根据权利要求8所述的强化学习...

【专利技术属性】
技术研发人员:齐晓琳杨楠刘金波宋旭日罗雅迪李立新於益军万雄狄方春蔡宇黄宇鹏卫泽晨寿增王凯金宜放宋磊韩昳樊淑丽邱成建张风彬刘幸蔚赵晨晓李章文刘升门德月凌兆伟曹良晶刘嘉明张隽张天一邱鹏张鹏
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1