【技术实现步骤摘要】
基于深度确定性策略梯度算法的发电商智能体及报价方法
本专利技术涉及电力技术,尤其涉及一种基于深度确定性策略梯度算法的发电商智能体及报价方法。
技术介绍
随着电力现货市场在国内市场的涌现,发电商将逐渐参与电力市场的竞价以获取自身的利益,在市场环境下,参与者为获得更高的利润,总是不断优化自身的投标策略。目前,我国电力市场还处于刚刚起步的阶段,发电商对市场环境还不熟悉,需要完善的报价策略理论作为指导。高效的报价决策工具可以帮助决策人员和报价人员进行一次成功的报价从而获得高额的收益。除此之外,研究和推演发电商的报价行为,还有助于电力市场的监管机构对发电商的行为进行考察,从而识别市场规则中的存在的漏洞,不断完善我国的电力市场,因此,对电力市场中发电商行为进行研究是十分必要的。然而,市场信息对于参与者而言并不完全,参与者对于自身策略的优化具有较大的难度。传统的发电商报价策略研究方法主要是基于博弈论方法,博弈论方法对于从理论上探讨市场成员的最优投标策略以及比较粗略地研究发电公司投标行为是很有用的,但由于博弈论方法的固有缺陷使得其实用性不强,因此不适合用来研究完整的投标策略。为了模拟非完全信息的电力市场真实环境中众多竞争对手存在的情况下,发电商最大化自身收益的有限理性报价行为,基于数值驱动的强化学习等机器学习算法越来越多地被采用,目前基于强化学习算法的发电商报价策略的研究多采用Q-learning及其变形算法。该算法的思想是通过查找有限规模的二维Q值表来得到状态-动作的期望值,因此需要把模型进行相应的简化,将连续的状 ...
【技术保护点】
1.基于深度确定性策略梯度算法的发电商报价方法,其特征在于,包括以下步骤:/n建立由Current Critic Network、Target Critic Network、Current Actor Network、Target Actor Network和Experience Replay memory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;/n建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于Current ActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到Experience Replaymemory中。/n
【技术特征摘要】
1.基于深度确定性策略梯度算法的发电商报价方法,其特征在于,包括以下步骤:
建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化;
建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中。
2.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,还包括以下步骤:
当ExperienceReplaymemory中储存的数据满了后,从ExperienceReplaymemory中随机抽取批量的样本数据对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新。
3.根据权利要求2所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行更新,具体包括:
将抽取的样本数据送入优化器,优化器按照损失函数最小化的原则,对CurrentCriticNetwork和CurrentActorNetwork的网络参数进行梯度下降训练,训练结束完成对CurrentCriticNetwork和CurrentActorNetwork的网络参数更新。
4.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述建立由CurrentCriticNetwork、TargetCriticNetwork、CurrentActorNetwork、TargetActorNetwork和ExperienceReplaymemory构成的深度确定性策略梯度算法网络,并对网络参数进行初始化的步骤,具体包括:
建立CurrentActorNetwork和TargetActorNetwork神经网络,其网络参数分别记为θa和θa’;建立CurrentCriticNetwork和TargetCriticNetwork神经网络,其网络参数记为θc和θc’;建立ExperienceReplaymemory,用于存储发电商智能体报价以后得到的样本数据;
设置发电商智能体的输入状态向量为市场出清价格,根据发电商报价系数的上限,设置ActorNetwork输出的限制;
将网络参数θa和θc随机初始化,并令θa’=θa,θc’=θc。
5.根据权利要求1所述的基于深度确定性策略梯度算法的发电商报价方法,其特征在于,所述建立发电商在电能的市场竞价模型,并根据建立的市场竞价模型基于CurrentActorNetwork计算的结果选择报价动作,将发电商的报价提交给ISO进行出清,将本次出清对应的发电商智能体的当前状态、报价系数、奖励和新的状态储存到ExperienceReplaymemory中,具体包括:
建立发电机组电能报价模型;
根据发电机组电能报价模型建立发电商在电能的市场竞价模型;
基于深度确定性策略梯度算法选择报价动作;
将报价提交给ISO进行出清;
ISO反馈的发电商节点电价以及中标电量;
将本次报价对应的发电商智能体的当前状态、报价系数、奖励和新的状态四条信息作为一条数据储存到ExperienceReplaymemory中,并更...
【专利技术属性】
技术研发人员:朱炳铨,肖艳炜,李继红,项中明,孙珂,徐立中,裘雨音,孔飘红,黄志华,申建强,王高琴,史新红,郑亚先,杨争林,冯树海,王子恒,
申请(专利权)人:国网浙江省电力有限公司,中国电力科学研究院有限公司,国家电网有限公司,国网浙江省电力有限公司湖州供电公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。