基于强化学习的市场动态申报策略的方法、装置以及设备制造方法及图纸

技术编号:35754075 阅读:11 留言:0更新日期:2022-11-26 19:00
本申请涉及人工智能以及电网控制技术领域,尤其涉及基于强化学习的市场动态申报策略的方法、装置以及设备,包括:获取综合能源系统运行基础数据;基于所述综合能源系统运行基础数据,得到策略和场景间的最优匹配性分析;基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。本申请有助于通过挖掘申报策略和决策场景间的内在匹配关系,实现申报策略的自适应决策,根据实际决策场景特征,选择最适宜的申报策略方法,制定申报方案,进一步有效提升综合能源系统现货市场申报决策准确性,提高其市场交易效益。提高其市场交易效益。提高其市场交易效益。

【技术实现步骤摘要】
基于强化学习的市场动态申报策略的方法、装置以及设备


[0001]本申请涉及人工智能以及电网控制
,尤其涉及基于强化学习的市场动态申报策略的方法、装置以及设备。

技术介绍

[0002]随着我国电力市场改革不断深化,放开发用电计划政策加速落地,电力市场交易对发用电企业运行效益的影响愈发凸显,由此产生了市场成员交易申报策略制定问题。特别是随着现货市场加速建设,市场交易复杂性显著提升,市场成员对高效准确的市场交易申报策略需求愈发迫切。现有技术中,申报策略具有一定的局限性,即申报策略不能完全适用于综合能源系统实际申报竞价决策期间的市场环境,无法满足申报策略与竞价环境的自适应,使得市场交易效益无法达到预期水平。

技术实现思路

[0003]为至少在一定程度上克服相关技术申报策略不能完全适用于综合能源系统实际申报竞价决策期间的市场环境,无法满足申报策略与竞价环境的自适应的问题,本申请提供基于强化学习的市场动态申报策略的方法、装置以及设备。
[0004]本申请的方案如下:
[0005]一方面,本申请提供基于强化学习的市场动态申报策略的方法,所述方法包括:
[0006]获取综合能源系统运行基础数据;
[0007]基于所述综合能源系统运行基础数据,构建申报策略智能体模型,得到策略和场景间的最优匹配性分析;
[0008]基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。
[0009]进一步地,构建所述申报策略智能体模型,包括:
[0010]通过Q强化学习算法,设计其环境变量、动作空间和奖励函数三方面要素,得到策略场景间的最优匹配性分析;
[0011]所述环境变量包括:市场交易类,包括:指标发电需求、新能源发电预测、常规机组开机容量、燃料价格指数;
[0012]自身特征类,包括:自身用电需求、自身供热需求、自身制冷需求和自身新能源发电预测、自身储能装置储电量。
[0013]进一步地,所述动作空间,包括:
[0014]通过智能体决策得到综合能源系统申报策略集合;
[0015]基于得到的综合能源系统申报策略集合,得到所述环境变量所描述的交易场景下的最优申报策略;
[0016]所述得到所述环境变量所描述的交易场景下的最优申报策略的公式为:
[0017]A={a1,a2,

a
N
}
[0018]式中,N为动作空间中申报策略库可选申报策略数量即所述综合能源系统申报策
略集合;a1、a2、
……
a
N
依次表示排序第1、第2至第N个申报策略是否被选中的动作状态变量,取值为0或1;
[0019]当取值为1时,表明该申报策略被选中;
[0020]否则,表明该策略未被选中。
[0021]进一步地,所述基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案,包括:
[0022]基于所述综合能源系统运行基础数据,通过贪心策略对构建的所述申报策略智能体模型进行训练,得到申报方案。
[0023]第二方面,本申请提供基于强化学习的市场动态申报策略的装置,所述装置包括:
[0024]获取模块,用于获取综合能源系统运行基础数据;
[0025]策略构模块,用于基于所述综合能源系统运行基础数据,得到策略和场景间的最优匹配性分析;
[0026]策略训练模块,用于基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。
[0027]第三方面,本申请提供一种电子设备,包括:
[0028]至少一个处理器;以及
[0029]与所述至少一个处理器通信连接的存储器;其中,
[0030]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述中任一项所述的方法。
[0031]本申请提供的技术方案可以包括以下有益效果:
[0032]本申请通过获取综合能源系统运行基础数据;基于所述综合能源系统运行基础数据,得到策略和场景间的最优匹配性分析;基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。本申请有助于通过挖掘申报策略和决策场景间的内在匹配关系,实现申报策略的自适应决策,根据实际决策场景特征,选择最适宜的申报策略方法,制定申报方案,进一步有效提升综合能源系统现货市场申报决策准确性,提高其市场交易效益。
[0033]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0034]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0035]图1是本申请一个实施例提供的基于强化学习的市场动态申报策略的方法流程图;
[0036]图2是本申请另一个实施例提供的基于强化学习的市场动态申报策略的结构组成图;
[0037]图3是本申请又一个实施例提供的训练过程奖励函数变化趋势示意图;
[0038]图4是本申请又一个实施例提供的决策理想度测试结果示意图;
[0039]图5是本申请又一个实施例提供的不同申报策略的场景适用示意图;
[0040]图6是本申请又一个实施例提供的电子设备示意图。
具体实施方式
[0041]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0042]实施例一
[0043]图1是本申请一个实施例提供的基于强化学习的市场动态申报策略的方法流程图。请参阅图1,本申请实施例提供基于强化学习的市场动态申报策略的方法,包括:
[0044]S1.获取综合能源系统运行基础数据;
[0045]S2.基于所述综合能源系统运行基础数据,得到策略和场景间的最优匹配性分析;
[0046]S3.基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。
[0047]对于步骤S2,在一个实施例中,所述基于所述综合能源系统运行基础数据,得到策略和场景间的最优匹配性分析,包括:
[0048]构建申报策略智能体模型,通过Q强化学习算法,设计其环境变量、动作空间和奖励函数三方面要素,得到策略场景间的最优匹配性分析。
[0049]在本实施例中,强化学习是一种基于智能体与外部环境交互学习,实现智能体策略更新改进,从而获得满足策略制定要求智能体的机器学习算法。强化学习可由四元组表示如下:
[0050]E={X,,,}(1)
[0051]式中,E表示强化学习算法,X,A,R,π分别表示环境变量集、动作空本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于强化学习的市场动态申报策略的方法,其特征在于,所述方法包括:获取综合能源系统运行基础数据;基于所述综合能源系统运行基础数据,构建申报策略智能体模型,得到策略和场景间的最优匹配性分析;基于所述最优匹配性分析,通过申报策略库中筛选最优策略,得到申报方案。2.根据权利要求1所述的方法,其特征在于,构建所述申报策略智能体模型,包括:通过Q强化学习算法,设计其环境变量、动作空间和奖励函数三方面要素,得到策略场景间的最优匹配性分析;所述环境变量包括:市场交易类,包括:指标发电需求、新能源发电预测、常规机组开机容量、燃料价格指数;自身特征类,包括:自身用电需求、自身供热需求、自身制冷需求和自身新能源发电预测、自身储能装置储电量。3.根据权利要求2所述的方法,其特征在于,所述动作空间,包括:通过智能体决策得到综合能源系统申报策略集合;基于得到的综合能源系统申报策略集合,得到所述环境变量所描述的交易场景下的最优申报策略;所述得到所述环境变量所描述的交易场景下的最优申报策略的公式为:A={a1,a2,

a
N
}式中,N为动作空间中申报策略库可选申报策略数量即所述综合能源...

【专利技术属性】
技术研发人员:孙勇金龙云张继权熊健李一明张磊苏阔刘畅史坤鹏
申请(专利权)人:国网吉林省电力有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1