基于深度确定性策略梯度算法的发电商智能体及报价方法技术

技术编号:27938496 阅读:26 留言:0更新日期:2021-04-02 14:19
本发明专利技术公开了一种基于深度确定性策略梯度算法的发电商智能体及报价方法,智能体包括:深度确定性策略梯度算法网络构建模块,用于建立由深度Actor网络、深度Critic网络以及由Experience Replay memory构成的经验回放库;探索性报价动作生成模块,用于建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于Current Actor Network计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到Experience Replay memory中。本发明专利技术通过深度强化学习的方法寻找发电商在非完全信息下的动态报价策略,是一种高效的报价决策工具,有助于发电商更加准确地在电力市场进行报价。

【技术实现步骤摘要】
基于深度确定性策略梯度算法的发电商智能体及报价方法
本专利技术涉及电力技术,尤其涉及一种基于深度确定性策略梯度算法的发电商智能体及报价方法。
技术介绍
随着电力现货市场在国内市场的涌现,发电商将逐渐参与电力市场的竞价以获取自身的利益,在市场环境下,参与者为获得更高的利润,总是不断优化自身的投标策略。目前,我国电力市场还处于刚刚起步的阶段,发电商对市场环境还不熟悉,需要完善的报价策略理论作为指导。高效的报价决策工具可以帮助决策人员和报价人员进行一次成功的报价从而获得高额的收益。除此之外,研究和推演发电商的报价行为,还有助于电力市场的监管机构对发电商的行为进行考察,从而识别市场规则中的存在的漏洞,不断完善我国的电力市场,因此,对电力市场中发电商行为进行研究是十分必要的。然而,市场信息对于参与者而言并不完全,参与者对于自身策略的优化具有较大的难度。传统的发电商报价策略研究方法主要是基于博弈论方法,博弈论方法对于从理论上探讨市场成员的最优投标策略以及比较粗略地研究发电公司投标行为是很有用的,但由于博弈论方法的固有缺陷使得其实用性不强,因此不适合用来研究完整的投标策略。为了模拟非完全信息的电力市场真实环境中众多竞争对手存在的情况下,发电商最大化自身收益的有限理性报价行为,基于数值驱动的强化学习等机器学习算法越来越多地被采用,目前基于强化学习算法的发电商报价策略的研究多采用Q-learning及其变形算法。该算法的思想是通过查找有限规模的二维Q值表来得到状态-动作的期望值,因此需要把模型进行相应的简化,将连续的状态空间简化成有限个状态区间。基于上述原因,Q值表的大小对Q-learning算法的寻优能力影响较大,随着模型中考虑的状态数的增加或状态区间的缩小,Q值表的规模呈指数增长,容易造成维数灾难。
技术实现思路
本专利技术的目的在于提供一种基于深度确定性策略梯度算法的发电商智能体及报价方法,以解决现有技术存在的发电商智能体的报价系数不连续的技术问题。本专利技术考虑了在现实情况中,无法获取市场中的完全信息,发电商不需要已知他人策略和他人的机组成本参数,利用深度学习和强化学习给出连续值的最优报价。为了实现上述目的,本专利技术采用如下技术方案:第一方面,本专利技术提供一种基于深度确定性策略梯度算法的发电商报价方法,包括以下步骤:建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中。本专利技术进一步的改进在于:还包括以下步骤:当ExperienceReplaymemory中储存的数据满了后,从ExperienceReplaymemory中随机抽取批量的样本数据对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新。本专利技术进一步的改进在于:所述对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新,具体包括:将抽取的样本数据送入优化器,优化器按照损失函数最小化的原则,对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行梯度下降训练,训练结束完成对CurrentCriticNetwork和CurrentActorNetwork的网络参数更新。本专利技术进一步的改进在于:所述建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化的步骤,具体包括:建立CurrentActorNetwork和TargetActorNetwork神经网络,其网络参数分别记为θa和θa’;建立CurrentCriticNetwork和TargetCriticNetwork神经网络,其网络参数记为θc和θc’;建立ExperienceReplaymemory,用于存储发电商智能体报价以后得到的样本数据;设置发电商智能体的输入状态向量为市场出清价格,根据发电商报价系数的上限,设置ActorNetwork输出的限制;将网络参数θa和θc随机初始化,并令θa’=θa,θc’=θc。本专利技术进一步的改进在于:所述建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中,具体包括:建立发电机组电能报价模型;根据发电机组电能报价模型建立发电商在电能的市场竞价模型;基于深度确定性策略梯度算法选择报价动作;将报价提交给ISO进行出清;ISO反馈的发电商节点电价以及中标电量;将本次报价对应的发电商智能体的当前状态、报价系数、奖励和新的状态四条信息作为一条数据储存到ExperienceReplaymemory中,并更新当前状态。第二方面,本专利技术还提供一种基于深度确定性策略梯度算法的发电商智能体,包括:深度确定性策略梯度算法网络构建模块,用于建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络;探索性报价动作生成模块,用于建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中。本专利技术进一步的改进在于:所述深度确定性策略梯度算法网络构建模块具体包括:深度Actor网络,用于建立CurrentActorNetwork和TargetActorNetwork神经网络;CurrentActorNetwork计算的报价系数作为智能体实际选择报价系数时的参考,TargetActorNetwork计算的报价系数用于在训练CriticNetwork时,估计未来状态下智能体选择的动作;深度Critic本文档来自技高网
...

【技术保护点】
1.基于深度确定性策略梯度算法的发电商报价方法,其特征在于,包括以下步骤:/n建立由Current Critic Network、Target Critic Network、Current Actor Network、Target Actor Network和Experience Replay memory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;/n建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于Current ActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到Experience Replaymemory中。/n

【技术特征摘要】
1.基于深度确定性策略梯度算法的发电商报价方法,其特征在于,包括以下步骤:
建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;
建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中。


2.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,还包括以下步骤:
当ExperienceReplaymemory中储存的数据满了后,从ExperienceReplaymemory中随机抽取批量的样本数据对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新。


3.根据权利要求2所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新,具体包括:
将抽取的样本数据送入优化器,优化器按照损失函数最小化的原则,对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行梯度下降训练,训练结束完成对CurrentCriticNetwork和CurrentActorNetwork的网络参数更新。


4.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化的步骤,具体包括:
建立CurrentActorNetwork和TargetActorNetwork神经网络,其网络参数分别记为θa和θa’;建立CurrentCriticNetwork和TargetCriticNetwork神经网络,其网络参数记为θc和θc’;建立ExperienceReplaymemory,用于存储发电商智能体报价以后得到的样本数据;
设置发电商智能体的输入状态向量为市场出清价格,根据发电商报价系数的上限,设置ActorNetwork输出的限制;
将网络参数θa和θc随机初始化,并令θa’=θa,θc’=θc。


5.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中,具体包括:
建立发电机组电能报价模型;
根据发电机组电能报价模型建立发电商在电能的市场竞价模型;
基于深度确定性策略梯度算法选择报价动作;
将报价提交给ISO进行出清;
ISO反馈的发电商节点电价以及中标电量;
将本次报价对应的发电商智能体的当前状态、报价系数、奖励和新的状态四条信息作为一条数据储存到ExperienceReplaymemory中,并更...

【专利技术属性】
技术研发人员:朱炳铨肖艳炜李继红项中明孙珂徐立中裘雨音孔飘红黄志华申建强王高琴史新红郑亚先杨争林冯树海王子恒
申请(专利权)人:国网浙江省电力有限公司中国电力科学研究院有限公司国家电网有限公司国网浙江省电力有限公司湖州供电公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1