一种基于深度Q网络的发电商竞价行为模拟方法及系统技术方案

技术编号:26600464 阅读:56 留言:0更新日期:2020-12-04 21:23
本发明专利技术公开了一种基于深度Q网络的发电商竞价行为模拟方法及系统,所述方法包括:构建状态空间S、动作空间A以及奖励函数;设置代理模型参数,并对所述代理模型进行初始化处理;其中,所述参数包括:动作空间参数A

【技术实现步骤摘要】
一种基于深度Q网络的发电商竞价行为模拟方法及系统
本专利技术涉及电力市场
,特别是涉及一种基于深度Q网络的发电商竞价行为模拟方法及系统。
技术介绍
电力市场仿真技术主要有实验经济学和基于代理的计算经济学方法两种方法。实验经济学主要通过合理的实验设计以参与实验的测试者的决策和表现模拟真实市场中发电成员的报价行为,然而受限于参与者的人数和对市场的认知水平,实验结果随机性较大,与市场总体的关系有待论证。而计算经济学方法则将智能代理模型内嵌到电力市场模拟研究框架中,利用人工智能方法做出报价决策。因此相比而言,基于代理的计算经济学方法更受到研究者的青睐。发电商代理模型是基于计算经济学的市场模拟技术的基础和难点,其结果不仅影响市场模拟的出清结果,其合理性也决定了市场动态模拟结果的合理性。目前,国内外基于智能代理的发电商竞价模拟算法已经取得了一定的研究成果,但多集中于传统的强化学习(ReinforcementLearning,RL)算法;例如以下几种代理模型:(1)基于生成对抗网络(GAN)建立了发电商代理模型,并从历史和仿真数据挖掘其竞价行为本文档来自技高网...

【技术保护点】
1.一种基于深度Q网络的发电商竞价行为模拟方法,其特征在于,包括:/n构建状态空间S、动作空间A以及奖励函数;其中,所述状态空间S选取时刻节点电价、时刻最高中标段以及所连线路时刻阻塞情况作为状态特征;所述动作空间A是基于边际成本曲线进行构建;所述奖励函数根据发电利润获得;/n设置代理模型参数,并对所述代理模型进行初始化处理;其中,所述参数包括:动作空间参数A

【技术特征摘要】
1.一种基于深度Q网络的发电商竞价行为模拟方法,其特征在于,包括:
构建状态空间S、动作空间A以及奖励函数;其中,所述状态空间S选取时刻节点电价、时刻最高中标段以及所连线路时刻阻塞情况作为状态特征;所述动作空间A是基于边际成本曲线进行构建;所述奖励函数根据发电利润获得;
设置代理模型参数,并对所述代理模型进行初始化处理;其中,所述参数包括:动作空间参数Amin、Amax、H;状态空间维数;探索概率ε;当前值网络和目标值网络的结构层数,各层神经元个数及激活函数,优化器参数;回放记忆单元容量;最大学习次数及当前值网络和目标值网络同步频率tstep;
所述代理模型进行申报竞价,市场运营机构根据所述申报竞价进行市场出清计算;
所述代理模型训练同步值网络,直到满足结束条件;其中,所述结束条件包括:达到最大学习次数或市场已达到均衡状态。


2.根据权利要求1所述的基于深度Q网络的发电商竞价行为模拟方法,其特征在于,所述边际成本计算公式如下:
CM(P)=a+2bP
式中,a、b分别为成本函数的一次项和二次项系数;P为机组出力;
每一个动作都是将边际成本乘上一个系数,A∈[Amin,Amax]分为递增的H等份,Amin和Amax分别为最小和最大的可选系数。若代理模型选择了第i个动作,其对应的系数为:
Ai=Amin+i/H*(Amax-Amin)
则其报价为:
CB=CMAi。


3.根据权利要求1所述的基于深度Q网络的发电商竞价行为模拟方法,其特征在于,所述对所述代理模型进行初始化处理,具体为:具体为:根据所述状态空间中选取的状态特征,初始化市场环境状态序列为s1,并采取max-min归一化预处理后得到φ1=φ(s1);初始化当前值网络权重参数θ,并令目标值网络权重参数θ-=θ。


4.根据权利要求1所述的基于深度Q网络的发电商竞价行为模拟方法,其特征在于,所述代理模型进行申报竞价,市场运营机构根据所述申报竞价进行市场出清计算,具体为:选取ε-greedy探索方式,即以概率ε随机选择动作at,否则选择动作at=argmaxaQ(φt,a|θ);动作at确定后,根据公式CB=CMAi计算得到对应的报价策略,并申报给市场运营商机构;所述市场运营机构基于市场的报价信息、市场负荷、电网拓扑结构和市场规则,以单侧报价时发电成本最小化或双侧报价时社会福利最大化作为出清目标,计算最优潮流,并给出相关的市场出清信息。


5.根据权利要求1所述的基于深度Q网络的发电商竞价行为模拟方法,其特征在于,所述代理模型训练同步值网络,具体为:根据所述奖励函数rt和下一个市场环境状态序列st+1,同时采取max-min归一化处理得到φt+1=φ(st+1),并存储转移序列(φt,at,rt,φt+1)到回放记忆单元;所述代理模型从所述记忆单元中随机采样固定数量的转移样本(φj,aj,rj,φj+1),根据目标值网络计算优化目标Yj=rj+γmaxa'Q(φj+1,a'|θ-),并计算误差函数(Yj-Q(φj,aj|θ))2;根据误差函数利用梯度下降法更新当前值网络权重参数θ,同时每隔tstep时间步同步目标值网络权重θ-=θ;若所述代理模型满足结束...

【专利技术属性】
技术研发人员:张翔尚楠黄国日陈政辜炜德宋艺航
申请(专利权)人:南方电网能源发展研究院有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1