【技术实现步骤摘要】
本专利技术属于电力调度自动化,具体涉及一种强化学习动作空间降维方法、系统、设备及介质。
技术介绍
1、新型电力系统电网运行控制规模呈指数级增长,控制对象由传统的常规机组向源荷双侧各类可调节资源转变。在电网实时调度计划编排业务中,传统实时调度计划编排对象大多是大容量常规发电机组,具有连续调节和控制能力,采用集中控制模式。随着分布式新能源、电动汽车、储能等设备海量接入,为满足功率双向流动和多元负荷用电需要,参与调节对象从单一的常规能源发电机组转变为灵活改造机组、新能源、储能、抽蓄、电动汽车等对象的多电气量调节。在实际运行中,由于负荷预测精度、天气变化、输电线路过载跳闸、设备临时故障等因素,计划编排需要应对不确定性进行快速滚动调整,因此随着控制对象量级变大,逐步开始采用强化学习算法进行电网实时调度计划编排。强化学习算法的求解空间大小为动作空间与状态空间的乘积,其求解的复杂度由动作空间和状态空间共同决定。在不考虑状态空间情况下,连续动作空间会形成无穷大的解空间,成为强化学习算法在连续控制任务训练上的稳定性和性能不佳的根本原因。
2、
...【技术保护点】
1.强化学习动作空间降维方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述元动作空间包括源侧与荷侧的可调节资源;
3.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间,具体为:
4.根据权利要求3所述的强化学习动作空间降维方法,其特征在于,所述考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间,具体为:
5.根据权利要求2所述的强化学习动作空间
...【技术特征摘要】
1.强化学习动作空间降维方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述元动作空间包括源侧与荷侧的可调节资源;
3.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述针对若干元动作空间进行连续动作空间离散化,得到若干离散化的元动作空间,具体为:
4.根据权利要求3所述的强化学习动作空间降维方法,其特征在于,所述考虑各类可调节资源的调节特性,将离散化的元动作空间按照设定的规则及算法进行优化组合,形成宏动作空间,具体为:
5.根据权利要求2所述的强化学习动作空间降维方法,其特征在于,所述对宏动作空间进行非法动作空间屏蔽,得到屏蔽宏动作空间,具体为:
6.根据权利要求1所述的强化学习动作空间降维方法,其特征在于,所述验证屏蔽宏动作空间合理性,具体为:
7.强化学习动作空间降维系统,其特征在于,包括:
8.根据权利要求7所述的强化学习动作空间降维系统,其特征在于,所述元动作空间构建模块中,元动作空间包括源侧与荷侧的可调节资源;
9.根据权利要求8所述的强化学习...
【专利技术属性】
技术研发人员:齐晓琳,杨楠,刘金波,宋旭日,罗雅迪,李立新,於益军,万雄,狄方春,蔡宇,黄宇鹏,卫泽晨,寿增,王凯,金宜放,宋磊,韩昳,樊淑丽,邱成建,张风彬,刘幸蔚,赵晨晓,李章文,刘升,门德月,凌兆伟,曹良晶,刘嘉明,张隽,张天一,邱鹏,张鹏,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。