【技术实现步骤摘要】
基于深度强化学习的热电联产系统经济调度方法
:本专利技术属于能源系统优化控制
,具体设计到基于DPPO深度强化学习算法的热电联产系统经济调度方法。
技术介绍
:当今社会发展与能源消耗之间的矛盾日益明显,英国石油公司2018年发布的世界能源统计年鉴显示,世界煤炭探明储量大约只能维持134年的人类生产活动,而石油和天然气仅能维持53年左右,因而要实现极具挑战性的环保目标,并为当代和后代人类提供经济的、可持续的能源供给,急需创新变革当下的能源使用方式。在此背景下,综合能源系统(IntegratedEnergySystem,IES)的概念应运而生,其实质是将各种能源(如电、气、热、氢等)相互整合,充分发挥它们之间的协同和互补作用,以此提高整体能源利用效率,促进可再生能源消纳,并降低能源消耗、成本和排放量。事实证明,IES是一种有效的能源解决方案,在构建安全、高效、清洁、灵活的未来能源系统方面潜力巨大。作为综合能源系统的一种典型形式,热电系统通过耦合设备(如热电联产机组、电锅炉和电热泵)在电、热两个子系统之间建立广泛的联 ...
【技术保护点】
1.一种基于深度强化学习的热电联产系统经济调度方法,其特征在于:该方法包括如下步骤:/nS1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;/nS2,改进深度强化学习中的DPPO算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。/n
【技术特征摘要】
1.一种基于深度强化学习的热电联产系统经济调度方法,其特征在于:该方法包括如下步骤:
S1,针对热电联产系统运行模型,利用马尔科夫链模型描述该运行模型,分别对优化方法中的目标函数和约束目标进行了严格的转化,并给出了证明;
S2,改进深度强化学习中的DPPO算法用于在多种运行状态下训练智能代理,首先在每个训练回合开始前运行环境会在合理的运行范围内随机产生运行数据;回合内智能代理会根据当前内部神经网络参数产生控制策略,与运行环境交互;回合结束后会以最大化回合内累计奖励为目标反向传播,优化智能代理的网络参数,使其学习到应对不同热电联产系统运行状态下的经济调度策略。
2.根据权利要求1所述的基于深度强化学习的热电联产系统经济调度方法,其特征在于:步骤S1中所述的马尔科夫链模型的构成因素包括环境和动作,针对热电联产系统运行环境智能代理会产生一动作环境会依据该动作指示运行,并反馈奖励r,因此,所述热电联产系统用一个六元组定义:其中是从某一状态转移到另一状态的矩阵,是初始状态的概率分布,γ∈(0,1)是探索因数,参数间的具体关系用如下公式描述:
式中:I是指示函数,在一个训练回合内,如果功率不匹配小于限额ε,那么I=1,否则的话I=0;c=[pgt,qgt,qgb,qtst,pgrid,pwind]是设备运行状态参数,pgt,qgt,qgb,qtst,pgrid,pwind依次是燃气轮机的电出力,燃气轮机的热出力,燃气锅炉的热出力,储热罐的充热/放热的值,与电网的交互电量,风机发电电量;d=[(pl-ps),(ql-qs),pl,ql)]是功率不匹配值,pl为电负荷需求值,ps为电负荷供应值,ql为热负荷需求之,qs为热负荷供应值;x=[tsti,rtp]为两随机环境变量,tsti为第i时刻的储热罐的初始状态,rtp为分时电价;表示动作值,Δpgt,Δpgb,Δqtst,Δpgrid分别表示采取动作时燃气轮机出力,燃气锅炉出力,储热罐充热/放热和与电网交易量的变化值。
3.根据权利要求1所述的基于深度强化学习的热电联产系统经济调度方法,其特征在于:步骤S1中所述对优化方法中的目标函数部分进行严格的转化,并给出了证明,具体方法是:假设π为智能代理生成的某一随机策略,π={a0,a1,...an},表示一个训练回合内从第0步到最后一步的动作的集合,如下为马尔科夫链问题的标准定义:
Aπ(s,a)=Rπ(s,a)-Vπ(s)
上式中:st,at分别指的是第t时刻的状态和动作,下标t表示训练回合内的时刻值,Rπ(st,at)指一个训练回合内的从第t时刻开始,采取策略轨迹π的情况下的累积奖励函数,r(st,at)指第t时刻在st状态,采取动作at的时候,环境反馈的奖励,积分函数下标t表示从第t时刻开始,上标表示在t+l时刻结束,符号表示在采取从策略轨迹π中采样的动作,并沿着此策略轨迹一直行动,Vπ(st)是值函数,表示对在st状态下可能的累积奖励的估计,r(st)表示在状态st下对环境给出奖励的估计值,Aπ(s,a)是差函数,表示实际奖励与估计奖励之间的差,用以评价当前动作的好坏程度,假设采取另一策略轨迹则新策略轨迹的累积奖励值可以在原策略轨迹π的累积奖励值的基础上表示为:
式中η(π)表示在采取策略轨迹π的情况下,智能体在一个训练回合内得到的累积奖励值,所以新策略轨迹的累积奖励值可以用原策略轨迹π的奖励加上累积的差函数的值表示;进而,只要保证即可保证每次更新后的策略比原策略好,最终收敛至最优解,根据差函数的定义Aπ(s,a)=Rπ(s,a)-Vπ(s),最终收敛时的策略轨迹对应的累积奖励函数值最大,没法找到比该策略轨迹累积奖励值更大的策略,所以此时的策略轨迹即为最优解,根据上述说明,优化的目标函数可以转换为最大化回合内累积奖励值,即具体的奖励值的设定如下:
d=(Ps-Pl,Qs-Ql)
cgas...
【专利技术属性】
技术研发人员:周苏洋,胡子健,顾伟,吴志,
申请(专利权)人:东南大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。