一种基于知识迁移Q学习算法的多能源系统优化调度方法技术方案

技术编号:25915606 阅读:36 留言:0更新日期:2020-10-13 10:34
本申请提出了一种基于知识迁移Q学习算法的多能源系统优化调度方法,该方法基于能源中心建模方法,建立了多能源系统的联合优化调度框架,并构建了计及含阀点效应供能成本和碳排放目标的典型多能源系统联合优化调度模型。并针对所构建的模型,提出了一种以知识迁移Q学习算法和内点法构成级联式算法进行求解,即上层Q学习以机组有功为动作变量,下层以内点法求解机组有功确定后的多能源系统优化模型,并通过知识迁移提高求解效率。

【技术实现步骤摘要】
一种基于知识迁移Q学习算法的多能源系统优化调度方法
本专利技术属于综合能源系统实时优化调度领域,特别涉及一种基于知识迁移Q学习算法的多能源系统优化调度方法。
技术介绍
能源互联网的概念引起了国内外学者的高度重视。能源互联网较之前的智能电网有了更加深远的内涵:首先,各种能源网络的一次侧、二次侧设备紧密相连形成复杂网络。其次,各种能源网络通过能源转换装置形成双向流动和互相转化。此外,各种类型的传输和储能设备,支持可再生能源的广泛接入,实现了多种能源的协调交互与优化。随着世界范围内天然气的大规模开采及各种新能源电厂的不断建设,可以预见,未来将形成多种能源相互连接的网络系统,并实现多种能源联合参与调度的形式。由于经济调度和需求响应都参与能源市场,并且时刻满足平衡约束条件,所以两者是相互影响的。一方面,用户将调整用电需求以最大化利润来响应市场,需求响应的结果会影响负荷曲线;另一方面,经济调度将导致市场价格等条件发生变化,这将改变需求响应的结果。如果经济调度和需求响应单方面进行,则较难交互收敛。
技术实现思路
本专利技术提出了一种基于知识迁移Q学习算法的多能源系统联合优化调度方法,该方法基于能源中心建模方法,建立了多能源系统的联合优化调度框架,并构建了计及含阀点效应供能成本和碳排放目标的典型多能源系统联合优化调度模型。并针对所构建的模型,提出了一种以知识迁移Q学习算法和内点法构成级联式算法进行求解,即上层Q学习以机组有功为动作变量,下层以内点法求解机组有功确定后的多能源系统优化模型,并通过知识迁移提高求解效率。本专利技术具体为一种基于知识迁移Q学习算法的多能源系统优化调度方法,包括以下步骤:初始化算法参数;获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数,加压站气压比上下限约束;对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于深度学习提炼出新任务初始知识矩阵;利用种群进行寻优;二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型;计算每个个体的目标函数;计算奖励函数;更新知识矩阵;更新概率矩阵;判断是否达到最大迭代次数,若达到,输出相应任务的最优知识矩阵;否则,返回动作选择步骤,迭代继续进行。进一步的,多能源系统联合优化调度模型是一个包含有多个能源中心的复杂网络,各个电源、气源、能源供应网络以及能源中心均服从同一个调度机构进行联合调度。进一步的,所述能源中心指的是一个集各种能源注入、转换、传输以及消费的整体;一组能源在其内部通过各类转化器转换成用户所需要的一组能源。进一步的,采用知识迁移Q学习+内点法的级联式算法,即上层Q学习以机组注入有功作为动作变量,下层以内点法求解机组注入有功确定后的多能源系统优化模型,并通过对历史优化信息的迁移学习加快算法收敛速度;由于每次内点法都将上层Q学习确定的机组注入作为常量,因此下层内点法可直接求解。进一步的,基于知识迁移Q学习的优化算法采用连续变量转化为二进制数的方法将连续的动作空间离散化,并采用状态-动作链将高维Q矩阵拆分成多个低维的Q矩阵。进一步的,Q矩阵更新方法是首先根据Q值大小选择机组注入对应二进制编码的每一位,动作选择只有0-1变量,动作选择完成后经编码转换成连续的机组有功代入多能源系统优化模型,用内点法获得目标值,并将其转化成相应的动作奖励以更新Q矩阵。进一步的,动作选择策略为用轮盘赌的方式在二进制空间中选择。与现有技术相比,本专利技术的技术方案具有以下有益的技术效果:基于多能源系统联合调度模型与基于知识迁移Q学习的快速寻优算法,充分挖掘了多能源系统的效益,与多种能源网络单独优化相比,可以减小供能成本和碳排放量,提高整个供能系统的经济利益和环境效益。附图说明图1为本专利技术的基于知识迁移Q学习算法的多能源系统优化调度方法的流程图;图2为实施例中能源中心测试系统示意图;图3为实施例的任务点负荷曲线。具体实施方式下面结合附图对本专利技术基于知识迁移Q学习算法的多能源系统优化调度方法的具体实施方式做详细阐述。请参考图1、图2和图3,本专利技术的一个实施方式提供一种基于知识迁移Q学习算法的多能源系统联合优化调度方法。该实施方式从多能源系统的联合优化调度模型出发,采用知识迁移Q学习算法实现快速求解。该基于知识迁移Q学习算法的多能源系统联合优化调度方法包括以下步骤:步骤S1,初始化算法参数。基于知识迁移Q学习算法的多能源系统联合优化调度方法的算法的寻优效果受到智能体个数、学习因子、折扣因子、样本学习迭代次数、任务优化迭代次数等的影响。知识迁移Q学习算法的参数设置如下:智能体个数为14,学习因子初始为1,折扣因子γ设为0.1,样本学习迭代次数为400,任务优化迭代次数为50。步骤S2,获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数、加压站气压比上下限约束。该实施例中的包括三个区域,每个区域为一个11能源中心测试系统,包括14个节点电力网络,20个节点天然气网络,11个能源中心。各子区域之间通过联络线相连,各子区域负荷及机组位置存在差异,其余拓扑及参数相同。其中,区域I发电机节点编号为1,2,14;区域II为1,5,13;区域III为2,5,9,13。以下文中所涉及的参数如无特殊说明,均为标幺值。多能源系统中,功率基准值为1MVA,机组都为燃煤机组,有功出力上下限为6和1.5MW,无功出力上下限为5和-5MVar,节点功率因数都为0.9,节点电压上下限为1.1p.u.和0.9p.u.,同步调相机吸收和发出无功,其上下限为6和-6MVar。天然气输气管道传输系数都为加压站特性常数都为0.1,各节点气压上下限分别为15p.u.和10p.u.。机组和气源的成本系数及碳排放系数参见附录表1,各子区域中能源中心的电负荷率、天然气负荷率、热负荷率如表2所示。表1各能源注入成本系数及碳排放系数表2燃煤发电机的主要参数步骤S3,对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于神经网络提炼出新任务初始知识矩阵。步骤S4,利用种群进行寻优。动作选择策略为用轮盘赌的方式在二进制空间中选择:式中,rand是[0,1]之间的随机数;Pij是基于Qij的概率矩阵步骤S5,二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型。采用连续变量转化为二进制数的方法将连续的动作空间离散化,具体如下:步骤S6,计算每个个体的目标函数。具体如下:多能源系统单个调度时段的优化目标为供能成本目标We和碳排放目标Wc,为精确计算供能成本,本专利技术考虑机组的阀点效应:其中,Ωelec为机组注入节点集合;Ωgas为气源注入节本文档来自技高网...

【技术保护点】
1.一种基于知识迁移Q学习算法的多能源系统优化调度方法,其特征在于:该方法具体包括以下步骤:/n初始化算法参数;/n获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数,加压站气压比上下限约束;/n对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于深度学习提炼出新任务初始知识矩阵;/n利用种群进行寻优;/n二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型;/n计算每个个体的目标函数;/n计算奖励函数;/n更新知识矩阵;/n更新概率矩阵;/n判断是否达到最大迭代次数,若达到,输出相应任务的最优知识矩阵;否则,返回动作选择步骤,迭代继续进行。/n

【技术特征摘要】
1.一种基于知识迁移Q学习算法的多能源系统优化调度方法,其特征在于:该方法具体包括以下步骤:
初始化算法参数;
获取发电机成本参数、发电机约束参数、用电、用气需求参数,潮流约束参数,加压站气压比上下限约束;
对任务进行分类并形成初始知识矩阵,若为源任务,则随机形成源任务初始知识矩阵;若为新任务,则基于深度学习提炼出新任务初始知识矩阵;
利用种群进行寻优;
二进制编码法转码成连续机组有功,并用内点法计算有功确定后的系统优化模型;
计算每个个体的目标函数;
计算奖励函数;
更新知识矩阵;
更新概率矩阵;
判断是否达到最大迭代次数,若达到,输出相应任务的最优知识矩阵;否则,返回动作选择步骤,迭代继续进行。


2.根据权利要求1所述的一种基于知识迁移Q学习算法的多能源系统优化调度方法,其特征在于,多能源系统联合优化调度模型是一个包含有多个能源中心的复杂网络,各个电源、气源、能源供应网络以及能源中心均服从同一个调度机构进行联合调度。


3.根据权利要求2所述的一种基于知识迁移Q学习算法的多能源系统优化调度方法,其特征在于,所述能源中心指的是一个集各种能源注入、转换、传输以及消费的整体;一组能源在其内部通过各类转化器转换成用户...

【专利技术属性】
技术研发人员:袁健华张乐张敏杨鸣贲树俊代克丽罗云钱霜秋
申请(专利权)人:国网江苏省电力有限公司南通供电分公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1