System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及能量调度,尤其涉及一种能源互联网优化调度方法及装置。
技术介绍
1、能源互联网以可再生能源为基础,强化不同形式能源之间的相互联系,深入结合信息通讯技术,可以使多种能源最大程度的发挥作用。因此,随着能源互联网相关建设的不断推进,以及能源互联网运营模式的不断拓展和示范工程的不断增多,研究能源互联网的优化调度方法对于提高能源利用效率、降低能源成本、改善电网稳定性和可靠性、减少环境影响、推动能源转型都具有重要的意义。
2、目前,针对能源互联网的优化调度问题,国内外均已取得大量科研成果。其中,传统的数学规划方法属于经典的优化方法,其对凸规划问题的计算速度快,且能获得全局最优解,但往往需要对系统做出一系列假设,同时也难以应对系统动态变化的挑战。而随机优化方法、鲁棒优化方法和启发式方法等均被用于解决能源互联网中源和负荷的不确定性问题,但他们均依赖于精准地预测,难以应对新能源出力与负荷多变的场景。而且由于问题的复杂性和搜索空间的维度,这些方法在优化过程中可能会陷入局部最优解,导致无法达到全局最优解。
3、专利技术人在实现本专利技术的过程中发现:深度强化学习由于实时决策、不断反馈修正的特性,能够更好地应对系统中新能源出力和负荷需求的不确定性,为能源互联网的优化调度提供了新的解决途径,然而目前在基于深度强化学习进行能源互联网优化调度时,存在网络无法正常收敛,且训练效率低下的问题。
技术实现思路
1、本专利技术实施例提供了一种能源互联网优化调度方法及装置,以解决目前
2、第一方面,本专利技术实施例提供了一种能源互联网优化调度方法,包括:
3、建立目标能源互联网的系统模型,并确定对目标能源互联网进行优化调度的目标函数和约束条件;
4、基于所述系统模型和所述目标函数,根据深度确定性策略梯度算法构建能源互联网优化调度模型;
5、根据随机噪声和贪心策略确定所述能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,以基于所述目标调度动作得到训练好的目标能源互联网优化调度模型;
6、利用所述目标能源互联网优化调度模型,在所述目标能源互联网的当前系统状态和所述约束条件下进行求解,获得当前系统状态下的优化调度方案。
7、在一种可能的实现方式中,所述能源互联网优化调度模型包括奖励函数;
8、所述根据随机噪声和贪心策略确定所述能源互联网优化调度模型训练过程中目标策略网络输出的目标调度动作,包括:
9、在所述能源互联网优化调度模型训练过程中,确定当前训练过程属于训练前期还是训练后期;
10、若当前训练过程属于训练前期,则随机生成一组备选调度动作,并对目标策略网络输出的调度动作添加随机噪声,获得一组待选目标调度动作;
11、根据贪心策略对所述备选调度动作和所述待选目标调度动作进行选择;
12、若贪心策略的选择为所述待选目标调度动作,则将所述待选目标调度动作确定为目标策略网络输出的目标调度动作;
13、若贪心策略的选择为所述备选调度动作,则基于所述奖励函数计算所述备选调度动作对应的奖励值,记为第一奖励值,并基于所述奖励函数计算所述待选目标调度动作对应的奖励值,记为第二奖励值;
14、将所述第一奖励值和所述第二奖励值中较大的奖励值对应的调度动作确定为目标策略网络输出的目标调度动作。
15、在一种可能的实现方式中,在确定当前训练过程属于训练前期还是训练后期之后,还包括:
16、若当前训练过程属于训练后期,则对目标网络输出的调度动作添加随机噪声,获得目标策略网络输出的目标调度动作。
17、在一种可能的实现方式中,所述确定当前训练过程属于训练前期还是训练后期的过程,包括:
18、确定当前训练过程是否为第一次训练过程;
19、若当前训练过程为第一次训练过程,则确定当前训练过程为训练前期;
20、若当前训练过程不为第一次训练过程,则判断上一次训练过程确定的目标调度动作对应的奖励值的变化量是否大于或等于设定变化量阈值;
21、根据判断结果确定当前训练过程属于训练前期还是训练后期。
22、在一种可能的实现方式中,所述根据判断结果确定当前训练过程属于训练前期还是训练后期,包括:
23、若所述变化量大于或等于所述设定变化量阈值,则确定当前训练过程为训练前期;
24、若所述变化量小于所述设定变化量阈值,则将所述变化量小于所述设定变化量阈值的累积次数增加1,并判断所述累积次数是否达到设定次数阈值;
25、若所述累积次数未达到所述设定次数阈值,则确定当前训练过程为训练前期;
26、若所述累积次数达到所述设定次数阈值,则确定当前训练过程为训练后期。
27、在一种可能的实现方式中,所述随机噪声为ou噪声;
28、所述贪心策略为ε-贪心策略。
29、在一种可能的实现方式中,所述奖励函数为:
30、
31、其中,rt(st,at)为在t时刻的系统状态st和t时刻的调度动作at下奖励函数的奖励值,β1为系统运行成本惩罚系数,β2为违反约束条件惩罚系数,β3为源荷功率不平衡惩罚系数,ce为购买能源的成本,cbes为电储能的充放电折旧成本,chs为热储能的充放热折旧成本,ft为t时刻的违反约束条件惩罚,α1为热电联供机组违反约束条件惩罚系数,α2为电储能违反约束条件惩罚系数,α3为电锅炉违反约束条件惩罚系数,α4为燃气锅炉违反约束条件惩罚系数,α为违反约束条件惩罚函数系数,pchp(t)为t时刻热电联供机组输出的电功率,pchp为热电联供机组输出的电功率限值,pbes(t)为t时刻电储能的充/放电功率,pbes为电储能的充/放电功率限值,heb(t)为t时刻电锅炉输出的热功率,heb为电锅炉输出的热功率限值,hgb(t)为t时刻燃气锅炉输出的热功率,hgb为燃气锅炉输出的热功率限值,ut为t时刻的源荷功率不平衡惩罚,pvac(t)为t时刻电功率供需不平衡惩罚,hvac(t)为t时刻的热功率供需不平衡惩罚。
32、在一种可能的实现方式中,所述能源互联网优化调度模型还包括策略网络、价值网络和目标价值网络;
33、在确定当前训练过程属于训练前期还是训练后期之前,还包括:
34、对所述能源互联网优化调度模型进行初始化,并将初始化后的系统状态作为当前系统状态;
35、将当前系统状态输入所述策略网络中,获得当前系统状态对应的当前调度动作;
36、根据所述奖励函数,计算当前调度动作对应的当前奖励值;
37、执行当前调度动作,得到下一时刻系统状态;
38、将当前系统状态、当前调度动作、当前奖励值和下一时刻系统状态作为一条经验样本放入经验回放池中,并根据当前奖励值本文档来自技高网...
【技术保护点】
1.一种能源互联网优化调度方法,其特征在于,包括:
2.根据权利要求1所述的能源互联网优化调度方法,其特征在于,所述能源互联网优化调度模型包括奖励函数;
3.根据权利要求2所述的能源互联网优化调度方法,其特征在于,在确定当前训练过程属于训练前期还是训练后期之后,还包括:
4.根据权利要求2所述的能源互联网优化调度方法,其特征在于,所述确定当前训练过程属于训练前期还是训练后期的过程,包括:
5.根据权利要求4所述的能源互联网优化调度方法,其特征在于,所述根据判断结果确定当前训练过程属于训练前期还是训练后期,包括:
6.根据权利要求2所述的能源互联网优化调度方法,其特征在于,
7.根据权利要求2所述的能源互联网优化调度方法,其特征在于,所述奖励函数为:
8.根据权利要求2所述的能源互联网优化调度方法,其特征在于,所述能源互联网优化调度模型还包括策略网络、价值网络和目标价值网络;
9.根据权利要求8所述的能源互联网优化调度方法,其特征在于,所述根据当前奖励值、下一时刻目标价值函数值和当前价值
10.一种能源互联网优化调度装置,其特征在于,包括:
...【技术特征摘要】
1.一种能源互联网优化调度方法,其特征在于,包括:
2.根据权利要求1所述的能源互联网优化调度方法,其特征在于,所述能源互联网优化调度模型包括奖励函数;
3.根据权利要求2所述的能源互联网优化调度方法,其特征在于,在确定当前训练过程属于训练前期还是训练后期之后,还包括:
4.根据权利要求2所述的能源互联网优化调度方法,其特征在于,所述确定当前训练过程属于训练前期还是训练后期的过程,包括:
5.根据权利要求4所述的能源互联网优化调度方法,其特征在于,所述根据判断结果确定当前训练过程属于训练前期还是训...
【专利技术属性】
技术研发人员:辛锐,宋峥峥,张鹏飞,陈曦,王梦迪,徐行,常永娟,孙思思,刘明硕,彭姣,张博,赵梦瑶,路欣,蔡硕,
申请(专利权)人:国网河北省电力有限公司信息通信分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。