System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种电力市场竞价出清模拟方法、系统、芯片及设备技术方案_技高网

一种电力市场竞价出清模拟方法、系统、芯片及设备技术方案

技术编号:40594224 阅读:4 留言:0更新日期:2024-03-12 21:56
本发明专利技术公开了一种电力市场竞价出清模拟方法、系统、芯片及设备,构建包含发电商报价模型和市场集中出清模型的市场竞价模型;根据市场竞价模型构建基于强化学习的智能报价模型;采用PPO方法对基于强化学习的智能报价模型进行求解,得到中标电量和节点电价。实现了大规模市场成员参与策略报价的模拟。

【技术实现步骤摘要】

本专利技术属于电力市场竞价,具体涉及一种电力市场竞价出清模拟方法、系统、芯片及设备


技术介绍

1、强化学习是机器学习方法之一,也称增强学习、评价学习,其是通过智能体(agent)在与环境(environment)进行交互的过程中,不断得到反馈并学习策略(policy),从而达到最大化奖励(reward)或实现特定目标的目的。

2、强化学习以马尔可夫决策过程(markov decision process,mdp)为基础,可以通过表1所示的要素进行表示。在mdp中,还有折扣系数等概念,也称衰减系数,用γ表示,满足0≤γ≤1,在序列决策中用来平衡未来奖励的折现,距离当前时刻越远的奖励对当前决策影响越小。

3、表1mdp模型要素说明

4、

5、强化学习算法包括基于策略(policy-based)、基于值函数(value-based)及基于演员评论家(actor-critic)三类。

6、近端策略优化法(proximal policy optimization,ppo)是对策略梯度法(policygradient)的一种改进算法。ppo的核心是通过一种重要性采样(importance sampling)方法,将策略梯度中在策略(on-policy)的训练过程转化为离策略(off-policy),即从在线学习转化为离线学习。

7、ppo方法采用策略梯度训练,通过环境相互作用对数据进行采样,并使用随机梯度下降法对切片目标函数进行优化,两者交替进行。切片目标函数通过限制每一步策略变化的大小来提高训练稳定性。

8、ppo方法主要由三个部分组成,即actor网络、critic网络和经验回放缓冲器。actor网络将状态映射到动作,critic网络负责估计状态和动作的价值,经验回放缓冲器则负责存储经验。需要注意的事,ppo智能体使用参数化随机策略,对于连续行动空间,智能体将观察状态作为输入,然后从高斯概率分布中采样的随机行动作为输出返回,因此,为了近似高斯分布的均值和标准差,使用一个有两个输出层的神经网络,每一个输出层都有和动作空间维数一样多的元素,分别作为actor选择动作的均值与方差。此外,ppo采用截断来对actor的输出进行约束,保证相同的状态下有同样的输出,但是,ppo方法的训练稳定性不足;而采用现有的强化学习智能报价方法随着发电商数量的增加,求解变量的规模极速扩大,导致原有方法求解困难。


技术实现思路

1、本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种电力市场竞价出清模拟方法、系统、芯片及设备,基于历史交易数据构建了深度强化学习智能报价模拟方法,初步实现了电力市场中发电商的竞价策略行为模拟,用于解决当前强化学习智能报价方法中由于发电商数量增加导致维数灾难的技术问题。

2、本专利技术采用以下技术方案:

3、一种电力市场竞价出清模拟方法,包括以下步骤:

4、构建包含发电商报价模型和市场集中出清模型的市场竞价模型;

5、根据所述市场竞价模型构建基于强化学习的智能报价模型;

6、采用ppo方法对所述智能报价模型进行求解,得到中标电量和节点电价。

7、具体的,发电商i参与的市场竞价模型如下:

8、

9、s.t.1≤λi≤λimax

10、其中,λimax为报价系数的上限,fi为优化目标函数,表示发电商的最大盈利,pi为发电商的出力,ci(pi)为发电商i的发电成本,π为系统功率平衡约束的拉格朗日乘子。

11、进一步的,发电商报价模型中,以实际市场的历史报价数据为基础,固定发电商历史申报容量作为市场审报的容量,以发电商i历史最低报价作为参与市场报价的底价,通过乘以报价系数进行策略报价;

12、市场集中出清模型具体为:

13、

14、

15、-f≤gsf(p-d)≤f

16、

17、

18、其中,pi,k为发电商i在第k个容量区间中的中标出力;m为各负荷节点的集合;p、d分别为各发电商出力pi与各节点负荷dj组合而成的向量,f为线路允许的最大潮流向量,gsf为发电转移因子矩阵;与分别为发电商申报的各出力区间的上界与下界。

19、具体的,基于强化学习的智能报价模型的状态变量由五个部分组成,即s={t,dt-1,πt-1,pt-1,dt},其中t为当前的交易时段,dt-1为上一时段的总负荷需求,πt-1为上一时段的市场出清价格,pt-1为上一时段的出清电量,dt为当前交易时段的总负荷需求。在每个交易时段,智能体将基于观测到的市场状态来进行报价动作;

20、根据发电商的报价行为设置智能体的动作为a={λt},即交易时段t的报价系数;在每个交易时段,发电商根据市场状态选择自身的报价系数,形成最终申报的容量价格对;

21、以发电商追求自身利益最大化的竞价模型中的目标函数值作为智能体的即时奖励,智能体在每个交易时段获得的所有即时奖励总和作为累计奖励。

22、具体的,采用ppo方法对所述智能报价模型进行求解具体为:

23、使用随机参数θ初始化actorπθ(a|s);用随机参数φ初始化actorvφ(s),按照当前的策略生成n个经验sts,ats,rts+1,st+1,…,sts+n-1,ats+n-1,rts+n,sts+n,st是一个状态,at是在该状态下采取的动作,st+1是下一个状态,rt+1是从st到st+1得到的奖励,ts是当前n个经验集的起始时间;训练开始,ts=1;

24、当处于状态st时,agent用πθ(a|s)计算采取动作空间中每个动作的概率,并根据概率分布随机地选择行动at;

25、对于k个轮次中的每一个经验计算优势函数dt和回报gt;

26、每经历k个轮次的计算,从经验存储器里取出部分再次学习;对于每个轮次,从当前经验集中随机抽取一个大小为m的小数据集,通过最小化所有采样数据的critic损失函数lcritic来更新critic参数lcritic(φ);根据最近非正常的优势值将优势值di正常化,通过在所有采样数据中最小化actor损失函数lactor更新actor参数lactor(θ);

27、重复以上步骤直到训练集达到终点状态,达到最大迭代次数或满足精度要求后完成模拟出清。

28、进一步的,critic参数lcritic(φ)和actor参数lactor(θ)分别为:

29、

30、其中,gi为小数据集中第i个元素的返回值,vφ(si)为actor参数,ri(θ)和ci(θ)为更新actor所需参数,di为小数据集中第i个元素的优势函数,ω为熵损失权重因子,κi(θ,si)为熵损失。

31、第二方面,本专利技术实施例提供了一种电力市场竞价出清模拟系统,包括:

32、本文档来自技高网...

【技术保护点】

1.一种电力市场竞价出清模拟方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,发电商i参与的市场竞价模型如下:

3.根据权利要求2所述的电力市场竞价出清模拟方法,其特征在于,发电商报价模型中,以实际市场的历史报价数据为基础,固定发电商历史申报容量作为市场审报的容量,以发电商i历史最低报价作为参与市场报价的底价,通过乘以报价系数进行策略报价;

4.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,基于强化学习的智能报价模型的状态变量由五个部分组成,即s={t,dt-1,πt-1,pt-1,dt},其中t为当前的交易时段,dt-1为上一时段的总负荷需求,πt-1为上一时段的市场出清价格,pt-1为上一时段的出清电量,dt为当前交易时段的总负荷需求;在每个交易时段,智能体将基于观测到的市场状态来进行报价动作;

5.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,采用PPO方法对所述智能报价模型进行求解具体为:

6.根据权利要求5所述的电力市场竞价出清模拟方法,其特征在于,Critic参数Lcritic(φ)和Actor参数Lactor(θ)分别为:

7.一种电力市场竞价出清模拟系统,其特征在于,包括:

8.根据权利要求7所述的电力市场竞价出清模拟系统,其特征在于,生成模块中,发电商i参与的市场竞价模型如下:

9.根据权利要求8所述的电力市场竞价出清模拟系统,其特征在于,发电商报价模型中,以实际市场的历史报价数据为基础,固定发电商历史申报容量作为市场审报的容量,以发电商i历史最低报价作为参与市场报价的底价,通过乘以报价系数进行策略报价;

10.根据权利要求7所述的电力市场竞价出清模拟系统,其特征在于,构建模块中,基于强化学习的智能报价模型的状态变量由五个部分组成,即s={t,dt-1,πt-1,pt-1,dt},其中t为当前的交易时段,dt-1为上一时段的总负荷需求,πt-1为上一时段的市场出清价格,pt-1为上一时段的出清电量,dt为当前交易时段的总负荷需求;在每个交易时段,智能体将基于观测到的市场状态来进行报价动作;

11.根据权利要求7所述的电力市场竞价出清模拟系统,其特征在于,输出模块具体用于:

12.根据权利要求11所述的电力市场竞价出清模拟系统,其特征在于,Critic参数Lcritic(φ)和Actor参数Lactor(θ)分别为:

13.一种芯片,其特征在于,

14.一种电子设备,其特征在于,

...

【技术特征摘要】

1.一种电力市场竞价出清模拟方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,发电商i参与的市场竞价模型如下:

3.根据权利要求2所述的电力市场竞价出清模拟方法,其特征在于,发电商报价模型中,以实际市场的历史报价数据为基础,固定发电商历史申报容量作为市场审报的容量,以发电商i历史最低报价作为参与市场报价的底价,通过乘以报价系数进行策略报价;

4.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,基于强化学习的智能报价模型的状态变量由五个部分组成,即s={t,dt-1,πt-1,pt-1,dt},其中t为当前的交易时段,dt-1为上一时段的总负荷需求,πt-1为上一时段的市场出清价格,pt-1为上一时段的出清电量,dt为当前交易时段的总负荷需求;在每个交易时段,智能体将基于观测到的市场状态来进行报价动作;

5.根据权利要求1所述的电力市场竞价出清模拟方法,其特征在于,采用ppo方法对所述智能报价模型进行求解具体为:

6.根据权利要求5所述的电力市场竞价出清模拟方法,其特征在于,critic参数lcritic(φ)和actor参数lactor(θ)分别为:

7.一种电力市场竞价出清模拟系统,...

【专利技术属性】
技术研发人员:袁沐琛丁强蔡帜程雪婷邹鹏薄利明陈丹阳崔校瑞刘新元张超郑惠萍
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1