【技术实现步骤摘要】
一种基于近端策略优化的用户实时自治能量管理优化方法
[0001]本专利技术涉及家庭能量管理领域,具体是一种基于近端策略优化的用户实时自治能量管理优化方法。
技术介绍
[0002]近年来,随着分布式光伏、电动汽车等柔性负荷及储能等分布式资源在居民智能用电的广泛普及,居民的能量管理和优化控制面临着由各类不确定性因素带来的挑战。与此同时,智能电表和通信等技术的快速发展为监测和控制居民用户分布式设备提供了关键的技术支撑,大数据和人工智能技术的发展则为能量管理优化提供了由数据驱动的新途径。
[0003]家庭能量管理系统作为能量管理技术在用户侧的体现,能够有效管理用户电能的生产、使用及存储过程。现有大部分文献采用基于模型的优化方法作为家庭能量管理优化问题的技术路线。然而,基于模型的能量管理优化方法的性能依赖于对各类DER(distributed energy resource,DER)设备运行模型构建的精度;而追求精细化建模易使得优化问题具有非凸和非光滑特性,增大求解难度与计算负担,使得所得策略多适用于线下的应用,难以实现实时能 ...
【技术保护点】
【技术特征摘要】
1.一种基于近端策略优化的用户实时自治能量管理优化方法,其特征在于,管理优化方法包括以下步骤:S1:对用户DER设备进行分类和建模,统一的三元组描述各类DER设备的运行特性,确定相应的能量管理动作;S2:基于S1中对用户DER设备的分类及建模,将用户实时自治能量管理优化问题建模为序贯决策问题;S3:利用长短期记忆神经网络提取实时的时序数据的未来走势,辅助步骤S4和S5中深度强化学习进行策略优化;S4:将S3中提取的未来走势和能量管理智能体观测的内部状态特征输入到基于深度神经网络的策略函数,赋能能量管理智能同时学习离散与连续动作,实现对各设备的控制;S5:采用基于近端策略优化算法赋能在S4中的离散与连续动作中学习能量管理优化策略。2.根据权利要求1所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S1具体包括以下步骤:用户DER设备分为分布式光伏、储能、柔性负荷和刚性负荷,柔性负荷又分为具备功率连续调节功能的负荷和具备延迟功率周期功能的负荷;对于任意设备n∈{1,...,N},其t时刻运行状态用以下三元组进行描述:式中:ω
n,t
∈{0,1}表示设备n的运行状态,其值为1表示设备n在t时刻处于允许运行时段,为0则表示设备n在t时刻不允许运行;ρ
n,t
∈[0,1]表示设备n在t时刻任务的完成进度;π
n,t
描述设备n的特有属性;暖通空调和电动汽车为具备功率连续调节功能的负荷,智能家电为具备延迟功率周期功能的负荷;暖通空调在t时刻的状态根据三元组的定义表示为:式中:n为t时刻的室内温度;为t时刻暖通空调的温度设定值;由于暖通空调的允许运行时段为全天,设为1,以当前室温与设定值的差表示暖通空调的运行进度;以用户设定的温度值表示暖通空调的特有属性;暖通空调在t时刻的负荷功率为P
tAC
,其大小在式(3)所示范围内连续调节,其中为暖通空调的最大额定功率;在给定P
tAC
影响下,t+1时刻室内温度表示为:式中:η
AC
为热转化效率,其值为正代表制冷,为负则为制热;T
tout
为t时刻的室外温度;R
AC
与C
AC
分别为热阻抗与热容量;
电动汽车在t时刻的状态根据三元组的定义表示为:式中:与分别为电动汽车接入与断开电网时间;由于电动汽车接入电网时才允许运行,因此当运行,因此当为1;表示电动汽车电池t时刻荷电状态,表示电动汽车的运行进度;t用来判断电动汽车在t时刻是否接入电网,为电动汽车特有属性;电动汽车在t时刻的净负荷功率为P
tEV
,正值表示充电,负值表示放电;P
tEV
大小在式(6)所示范围内调节,其中为电动汽车功率最大值;P
tEV
的取值还受制于电动汽车当前荷电状态与电池可用容量的上下限,如式(7)所示:量的上下限,如式(7)所示:式中:为电动汽车电池容量;η
EVC
和η
EVD
分别为电动汽车的充电与放电效率;和ψ
EV
分别为电动汽车的最高与最低荷电状态;基于式(7),电动汽车电池t+1时刻的荷电状态表示为:储能的运行状态按照上述方式类似描述;智能家电运行周期总时长为T
SA
,包含K个固定次序的用电步骤τ=1,...,K,对应固定的K个用电功率智能家电的允许运行时段由启始与截止时间与描述,智能家电在t时刻的状态根据三元组的定义表示为:式中:智能家电的允许运行时段为因此在该时段内设定为1,在其余时段设定为0;表示任务当前完成进度;表示完成允许运行时段的剩余时间;智能家电的负荷功率t时刻对应的控制变量表示是否执行当前运行步骤,被定义为:
给定之后智能家电的负荷功率P
tSA
按式(11)描述:式中:3.根据权利要求2所述的用户实时自治能量管理优化方法,其特征在于,所述步骤S2具体为马尔科夫决策过程,包括以下步骤:能量管理智能体与环境:能量管理系统作为能量管理智能体与环境交互学习经验并对能量管理策略进行优化;环境为S1中所有DER设备构成的用电系统;有限状态集(S):t时刻环境状态定义为:式中:s
1:N,t
为所有设备t时刻的三元组状态;和分别为过去M时段售电商提供的售电和购电价格;为过去M时段室外温度;有限动作集(A):t时刻的动作定义为:式中:P
tEV
、P
tEV
与P
tAC
分别是对电动汽车、储能与暖通空调的连续控制动作;为N
d
个智能家电的离散控制动作;马尔可夫决策过程问题核心是在最大化奖励函数r
t
下给出最优策略,由于能量管理的优化目标是在保证用户舒适度和满足各设备运行约束下的用能费用最少。4.根据权利要求3所述的用户实时自治能量管理优化方法,其特征在于,所述步骤奖励函数r
t
具体包括:1)用能费用:1)用能费用:式中:l
t
为用户的净负荷;P
tND
为刚性负荷的功率;P
tPV
为光伏发电功率;和分别为售电商提供的t时刻的售电和购电价格;2)舒适度:用户舒适度同当前室内温度与设定的暖通空调温度上下限有关:式中:为温度距离最佳设定温度的差值阈值;为舒适度权重;
3)惩罚项:针对电动汽车用户而言,出行前需保证电池能量足够出行,对于违反该运行约束的部分通过惩罚项施加在奖励函数上,该项表示为式(17):式中:为电动汽车出行需要的总用电量;w2为惩罚项权重;综上,t时刻的奖励函数r
t
表示为:能量管理智能体学习的目标在于求解最优策略使T个运行时段的总期望折扣奖励J(π)最大,目标函数表示为:式中:π:s
t
→
P(a
t
)表示能量管理智能体所采用的策略,反应环境状...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。