一种基于模糊强化学习的动态需求响应定价方法技术

技术编号:20567218 阅读:35 留言:0更新日期:2019-03-14 09:44
本发明专利技术公开了一种基于模糊强化学习的动态需求响应定价方法,包括步骤:S1、建立分层电力市场模型,包括模糊负荷需求响应模型、负荷聚集商优化模型及其目标函数模型;S2、对步骤S1所建立的模型用模糊强化学习算法进行求解得到最优零售电价。本发明专利技术在考虑负荷响应模糊不确定性的情况下寻找合理的电价,针对动态需求响应定价模型没有考虑负荷响应模糊不确定性的不足,提出模糊负荷需求响应模型,负荷聚集商优化模型和目标函数模型,并提出基于模糊强化学习的动态需求响应定价步骤,不仅充分考虑负荷响应的不确定性,还能适应动态变化的电力市场环境,提高了计算效率,通过优化找到实时最优定价策略,起到提高电网可靠性减少能量不平衡的作用。

【技术实现步骤摘要】
一种基于模糊强化学习的动态需求响应定价方法
本专利技术涉及一种基于模糊强化学习的动态需求响应定价方法。
技术介绍
随着配电网通讯技术的发展,因需求侧响应在负荷端有着灵活的调节效果,需求侧响应成为了改善电网可靠性和减少能量损耗的有效方法。价格型需求响应使用户根据实时变化的电价信号改变其用电模式,达到调整负荷曲线的目的。动态需求响应定价过程是一个决策过程,其目的在于找到一个合理的电价以分配系统的电能服务。需求响应定价模型往往采用确定的定价模型,例如分时定价模型,并不能很好的反映实时动态市场的能量的不确定性。动态价格定价模型通常利用线性定价模型,没有合理的逻辑定价过程,而且不能反映需求响应分布的复杂性。所以如何建立反映负荷需求响应的不确定的需求响应模型很有必要。强化学习(Reinforcementlearning,RL)是一种人工智能算法。强化学习算法借鉴行为心理学,是机器学习的一种,可用于决策问题。强化学习通过个体对不确定的环境不断采取动作来最大化一些决策的奖励。应用强化学习算法在定价模型中有利于充分考虑电力市场的不确定性和灵活性,可以用来解决具有不确定性的动态需求响应定价方法。
技术实现思路
本专利技术的目的在于克服传统动态需求响应定价模型的不足,提出基于模糊强化学习算法的动态需求响应定价方法,该方法能够充分将电力市场的不确定性和灵活性考虑到电价的决策当中。本专利技术采取的技术方案是:一种基于模糊强化学习的动态需求响应定价方法,包括步骤:S1、建立分层电力市场模型,包括模糊负荷需求响应模型、负荷聚集商优化模型及其目标函数模型;S2、对步骤S1所建立的模型用模糊强化学习算法进行求解得到最优零售电价。进一步地,步骤S1中,建立模糊负荷需求响应模型具体包括:S11、建立基础负荷的模型和可中断负荷模型:所述模糊负荷需求响应模型中,负荷包括可中断负荷、不参与需求响应的基础负荷,所述基础负荷的模型为:式中,和分别表示在t时间段用户n的能量消耗和实际能量需求;t∈{1,2,3…T},T表示一天的总时间段数;n∈{1,2,3…N},N表示总用户数,上标b表示基础负荷;所述可中断负荷模型为:ξt=(ξa,ξb,ξc)ξa,ξb,ξc<0λt,n≥πt式中,E[]表示模糊期望值;和分别表示在t时间段用户n的可中断能量消耗和能量需求;ξt是t时间段的价格弹性系数,其值小于零,并且是一个三角模糊数;λt,n表示用户n在时间段t的零售电价;πt表示t时间段的批发电价;上标c表示可中断负荷;下标a,b和c分别表示三角形模糊数的起点,中间点和终点;S12、根据所述基础负荷的模型和可中断负荷模型确定用户的最小化代价目标模型:其中,表示总的实际负荷消耗期望值,表示用户n在时间段t的不满意程度:αn>0,βn>0式中,αn和βn表示负荷对切负荷量的反应参数;Dmin和Dmax分别表示负荷的最小和最大切负荷量。进一步地,步骤S1中,建立负荷聚集商优化模型的目的是赚取零售电价和批发电价的最大收益,具体模型为:进一步地,步骤S1中,当同时考虑用户的代价和负荷聚集商的收益时,所述目标函数模型为:式中,ρ∈[0,1]表示用户代价和负荷聚集商的权重关系。进一步地,所述步骤S2具体包括:步骤S21:初始化参数,包括:负荷的能量需求Et,n;价格弹性系数ξt;负荷对切负荷量的反应参数αn、βn;负荷的最小和最大切负荷量Dmin、Dmax;批发电价πn;奖励的权重系数θ;用户代价和负荷提供商的权重关系ρ;步骤S22:初始化Q(et,n|Et,n,λt,n),Q表中各元素为零,置时间段t=0,迭代次数k=0;步骤S23:观察用户在t=1的能量需求Et,n;步骤S24:用贪婪策略选择零售电价λt,n;步骤S25:计算奖励即目标函数观察用户在时间段t+1的能量需求Et+1,n,并且更新FQ值;步骤S26:判断是否达到最大时间段T,是则转到下一步骤,否则,t=t+1,返回步骤S24;步骤S27:判断Q表是否收敛到最大值,是则转到下一步骤,否则,k=k+1,返回步骤S23;步骤S28:输出一天中T个时间段的最优零售电价。进一步地,步骤S24中,状态-动作值函数为:V(x)=maxFQ(sk+1,a),其中,FQ(·)代表FQ值,是一个模糊期望值;k表示迭代次数;a表示在状态sk+1选择的动作;则利用贪婪原则选择动作策略为:其中,x是一个在[0,1]区间内的随机数;ε表示探索率。进一步地,步骤S25中,所述FQ值可用下面的式子更新:FQ(sk,a)←FQ(sk,ak)+αk[r(sk,ak)+γmaxFQ(sk+1,a)-FQ(sk,ak)]其中,α表示学习因子;γ表示折扣因子;r(sk,ak)表示是sk在状态选择ak动作的回报。与现有技术相比,本专利技术达到的有益效果是:在运算过程中,充分考虑负荷的不确定性,针对动态需求响应定价模型没有考虑负荷响应模糊不确定性的不足,适合实时变化的电力市场环境,增加动态定价的合理性,提高计算效率,通过优化算法找到实时最优定价策略,起到提高电网可靠性减少能量不平衡的作用。附图说明图1是分层电力市场模型示意图。图2是基于模糊强化学习算法进行求解得到最优零售电价的流程示意图。具体实施方式下面结合附图对实施例进行进一步地说明。一种基于模糊强化学习的动态需求响应定价方法,包括步骤:S1、建立分层电力市场模型,包括模糊负荷需求响应模型、负荷聚集商优化模型及其目标函数模型;S2、对步骤S1所建立的模型用模糊强化学习算法进行求解得到最优零售电价。如图1所示,能源由电力生产者以批发价卖给负荷聚集商,再由负荷聚集商以零售价卖给消费用户。三者之间的交换信息主要是购电价格和用电量。其中,负荷聚集商和消费用户之间零售价的信息交换及定价决策机制,则是本实施例所提供的基于模糊强化学习的动态负荷需求响应定价方法。具体而言,步骤S1中,建立模糊负荷需求响应模型具体包括:S11、建立基础负荷的模型和可中断负荷模型:所述模糊负荷需求响应模型中,负荷包括可中断负荷、不参与需求响应的基础负荷,所述基础负荷的模型为:式中,和分别表示在t时间段用户n的能量消耗和实际能量需求;t∈{1,2,3…T},T表示一天的总时间段数;n∈{1,2,3…N},N表示总用户数,上标b表示基础负荷;所述可中断负荷模型为:ξt=(ξa,ξb,ξc)ξa,ξb,ξc<0λt,n≥πt式中,E[]表示模糊期望值;和分别表示在t时间段用户n的可中断能量消耗和能量需求;ξt是t时间段的价格弹性系数,其值小于零,并且是一个三角模糊数;λt,n表示用户n在时间段t的零售电价;πt表示t时间段的批发电价;上标c表示可中断负荷;下标a,b和c分别表示三角形模糊数的起点,中间点和终点;S11、根据所述基础负荷的模型和可中断负荷模型确定用户的最小化代价目标模型:其中,表示总的实际负荷消耗期望值,表示用户n在时间段t的不满意程度:αn>0,βn>0式中,αn和βn表示负荷对切负荷量的反应参数;Dmin和Dmax分别表示负荷的最小和最大切负荷量。具体而言,步骤S1中,建立负荷聚集商优化模型的目的是赚取零售电价和批发电价的最大收益,具体模型为:具体而言,步骤S1中,当同时考虑用户的代价和负荷聚本文档来自技高网...

【技术保护点】
1.一种基于模糊强化学习的动态需求响应定价方法,其特征在于,包括步骤:S1、建立分层电力市场模型,包括模糊负荷需求响应模型、负荷聚集商优化模型及其目标函数模型;S2、对步骤S1所建立的模型用模糊强化学习算法进行求解得到最优零售电价。

【技术特征摘要】
1.一种基于模糊强化学习的动态需求响应定价方法,其特征在于,包括步骤:S1、建立分层电力市场模型,包括模糊负荷需求响应模型、负荷聚集商优化模型及其目标函数模型;S2、对步骤S1所建立的模型用模糊强化学习算法进行求解得到最优零售电价。2.根据权利要求1所述的一种基于模糊强化学习的动态需求响应定价方法,其特征在于:步骤S1中,建立模糊负荷需求响应模型具体包括:S11、建立基础负荷的模型和可中断负荷模型:所述模糊负荷需求响应模型中,负荷包括可中断负荷、不参与需求响应的基础负荷,所述基础负荷的模型为:式中,和分别表示在t时间段用户n的能量消耗和实际能量需求;t∈{1,2,3…T},T表示一天的总时间段数;n∈{1,2,3…N},N表示总用户数,上标b表示基础负荷;所述可中断负荷模型为:ξt=(ξa,ξb,ξc)ξa,ξb,ξc<0λt,n≥πt式中,E[]表示模糊期望值;和分别表示在t时间段用户n的可中断能量消耗和能量需求;ξt是t时间段的价格弹性系数,其值小于零,并且是一个三角模糊数;λt,n表示用户n在时间段t的零售电价;πt表示t时间段的批发电价;上标c表示可中断负荷;下标a,b和c分别表示三角形模糊数的起点,中间点和终点;S12、根据所述基础负荷的模型和可中断负荷模型确定用户的最小化代价目标模型:其中,表示总的实际负荷消耗期望值,表示用户n在时间段t的不满意程度:αn>0,βn>0式中,αn和βn表示负荷对切负荷量的反应参数;Dmin和Dmax分别表示负荷的最小和最大切负荷量。3.根据权利要求2所述的一种基于模糊强化学习的动态需求响应定价方法,其特征在于:步骤S1中,建立负荷聚集商优化模型的目的是赚取零售电价和批发电价的最大收益,具体模型为:4.根据权利要求3所述的一种基于模糊强化学习的动态需求响应定价方法,其特征在于:步骤S1中,当同时考虑用户的代...

【专利技术属性】
技术研发人员:邱守强
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1