一种基于DQN深度强化学习算法的单一水库智能防洪调度方法技术

技术编号:34927295 阅读:47 留言:0更新日期:2022-09-15 07:21
本发明专利技术涉及一种基于DQN深度强化学习算法的单一水库智能防洪调度方法,包括:构建基于人工智能的水库调度“无监督深度学习”模型、以水库发电调度为基础建立DRL的奖励反馈,以及基于水库实测入库径流过程建立针对某水库的调度人工智能专家。与动态规划求解的最优发电调度过程进行对比,本发明专利技术所述基于DQN深度强化学习算法的单一水库智能防洪调度方法的发电调度结果,明显优于传统的基于决策树的水库发电调度结果,说明本发明专利技术所述水库调度“无监督深度学习”模型具有很强大的学习能力和决策能力,在水库调度决策中具有很强的适应能力。在水库调度决策中具有很强的适应能力。在水库调度决策中具有很强的适应能力。

【技术实现步骤摘要】
一种基于DQN深度强化学习算法的单一水库智能防洪调度方法


[0001]本专利技术涉及人工智能
,特别涉及一种基于DQN深度强化学习算法的单一水库智能防洪调度方法。

技术介绍

[0002]2016年,围棋AlphaGo的成功,激活了人工智能的潜力。AlphaGo的出现具有里程碑的意义,由此掀起了人工智能发展浪潮。在此浪潮推动下,将进一步加快其核心技术的发展和向其他行业的衍生。在AlphaGo的对弈过程中,每一步的决策均需要考虑其后效性和最大的取胜概率。AlphaGo中最为核心的算法就是深度强化学习(Deep Reinforcement Learning,DRL),该算法适用于状态vs.决策的模式,尤其适用于具有马尔科夫性质的决策过程。
[0003]传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题,尤其在多状态和多决策。深度强化学习DRL是深度学习与强化学习相结合的产物。DRL集成了深度学习在视觉、认知等问题上强大的理解能力,以及强化学习的决策能力,形成了从感知(Perception)到动作(Action)的端到端学习(End

to

End Learning)的全新模式。该模式使机器学习具备真正意义的“自主学习”潜力。DRL技术使得人工智能技术真正走向实用,使其在高维状态和决策的复杂环境中具有强大的学习和生存能力。
[0004]在水利行业中,水库调度具有典型的马尔科夫决策过程的特性,调度决策依赖于水库的蓄水和来水等状态条件,因此水库调度与DRL算法的理念具有高度的吻合性。如将DRL技术衍生到水利行业,水库调度方向将是其应用的主战场之一。
[0005]因此,目前如何将DRL技术引入水库调度中,并适应水库调度决策、确定水库发电的最优控制过程,是一个需要解决的问题。

技术实现思路

[0006]为了克服现有技术的问题,本专利技术提出了一种基于DQN深度强化学习算法的单一水库智能防洪调度方法。所述的方法在DQN的网络和DRL模型的基础上,采用水库发电作为奖励反馈,建立基于深度强化学习算法的水库运行控制模型,建立水库调度人工智能专家,从而确定该水库发电的最优控制过程。
[0007]本专利技术的目的是这样实现的:
[0008]一种基于DQN深度强化学习算法的单一水库智能防洪调度方法,包括以下步骤:
[0009]步骤1:构建基于人工智能的水库调度“无监督深度学习”模型:
[0010]以DRL技术架构为基准,分别建立Agent的大脑、记忆库以及“自主学习”算法模块;
[0011]所述Agent的大脑采用Deep Q

Network(DQN)算法构建,并具有双层神经网络,分别为Action Network(AN)和Target Network(TN);
[0012]所述记忆库中,存储的是调度过程中产生的调度知识,每个时段的调度决策,都能
形成一条知识;
[0013]所述自主学习模块基于Bellman方程的价值函数不断增加,从而体现Agent决策能力的不断提高;随着学习次数的增加,本次学习价值函数采用邻近k次学习计算的价值函数的平均值来体现,公式为:
[0014][0015]式中,u
k
为第k次学习给定调度状态条件下的决策价值函数;u
i
为第i次学习给定调度状态条件下的决策价值函数;U
k
为第k次学习通过本次学习后获得的平均价值函数;U
k
‑1为第k

1次学习通过本次学习后获得的平均价值函数。
[0016]“自主学习”后,价值函数的更新采用以下公式实现:
[0017]U
k
(S
t
,A
t
)=(1

α)U
k
‑1(S
t
,A
t
)+α
·
u(S
t
,A
t
)
[0018]式中,S
t
为t时段初的条件属性,A
t
为t时段初的决策属性;α为学习率;u为给定调度状态条件下的决策价值函数;
[0019]在水库发电调度的决策价值估计中,依据状态S
t+1
计算决策集合中各决策的U值,上式中的U值,采用平均值的方式评估决策效益,公式为:
[0020][0021]式中,R
t
为t时段获得的决策效益值;S
t+1
为t时段末的条件属性,为t时段末的决策属性;λ为折扣因子;
[0022]每次学习后,依据价值函数的变化作为梯度下降法更新Neural Network权重参数的误差反馈,公式为:
[0023]E
k
=U
k

U
k
‑1[0024]式中,E
k
为第k

1和第k次学习的价值函数差值;
[0025]步骤2:以水库发电调度为基础建立DRL的奖励反馈:
[0026]依据当前时段的状态和得到的决策,评估本次决策的效益,并以奖励的形式反馈;其中,以发电量和是否达到保证出力作为效益评估的指标;
[0027]步骤3:基于水库实测入库径流过程建立针对某水库的调度人工智能专家:
[0028]以实测的某水库入库径流信息及其对应的调度时段为输入状态,通过所述“自主学习”算法模块进行自主学习,并通过Agent的大脑决策未来时段的水库操作,即发电出力;在此基础上,采用水库发电调度模拟的方式,估计并返回本次操作的奖励,即发电效益;随后,将水库状态、操作和效益以知识的方式存储到所述记忆库中,当记忆库中拥有足够的知识后,在满足学习条件的情况下,开始学习记忆中的知识,然后再不断的进行实际调度操作,获得新知识并更新记忆库,以此循环学习

实际调度的过程,最终使Agent逐渐成熟并成为水库调度人工智能专家;
[0029]将建立的水库调度人工智能专家用于该水库发电调度决策,确定该水库发电的最优控制过程。
[0030]进一步的,所述记忆库中,时段t的调度决策,可将时段初的条件属性(S
t
),决策属性(Action),奖励(Reward),以及t时段末的条件属性(S
t+1
),共同组成一条知识,并存储到
记忆库中,公式为:
[0031]<S
t
=(T
t
,L
t
,Q
t
),Reward=R
t
,Action=A
t
,S
t+1
=(T
t+1
,L
t+1
,Q
t+1
)>
[0032]式中,S...

【技术保护点】

【技术特征摘要】
1.一种基于DQN深度强化学习算法的单一水库智能防洪调度方法,其特征在于,所述方法包括以下步骤:步骤1:构建基于人工智能的水库调度“无监督深度学习”模型:以DRL技术架构为基准,分别建立Agent的大脑、记忆库以及“自主学习”算法模块;所述Agent的大脑采用Deep Q

Network(DQN)算法构建,并具有双层神经网络,分别为Action Network(AN)和Target Network(TN);所述记忆库中,存储的是调度过程中产生的调度知识,每个时段的调度决策,都能形成一条知识;所述自主学习模块基于Bellman方程的价值函数不断增加,从而体现Agent决策能力的不断提高;随着学习次数的增加,本次学习价值函数采用邻近k次学习计算的价值函数的平均值来体现,公式为:式中,u
k
为第k次学习给定调度状态条件下的决策价值函数;u
i
为第i次学习给定调度状态条件下的决策价值函数;U
k
为第k次学习通过本次学习后获得的平均价值函数;U
k
‑1为第k

1次学习通过本次学习后获得的平均价值函数;“自主学习”后,价值函数的更新采用以下公式实现:U
k
(S
t
,A
t
)=(1

α)U
k
‑1(S
t
,A
t
)+α
·
u(S
t
,A
t
)式中,S
t
为t时段初的条件属性,A
t
为t时段初的决策属性;α为学习率;u为给定调度状态条件下的决策价值函数;在水库发电调度的决策价值估计中,依据状态S
t+1
计算决策集合中各决策的U值,上式中的U值,采用平均值的方式评估决策效益,公式为:式中,R
t
为t时段获得的决策效益值;S
t+1
为t时段末的条件属性,为t时段末的决策属性;λ为折扣因子;每次学习后,依据价值函数的变化作为梯度下降法更新Neural Network权重参数的误差反馈,公式为:E
k
=U
k

U
k
‑1式中,E
k
为第k

1和第k次学习的价值函数差值;步骤2:以水库发电调度为基础建立DRL的奖励反馈:依据当前时段的状态和得到的决策,评估本次决策的效益,并以奖励的形式反馈;其中,以发电量和是否达到保证出力作为效益评估的指标;步骤3:基于水库实测入库径流过程建立针对某水库的调度人工智能专家:以实测的某水库入库径流信息及其对应的调度时段为输入状态,通过所述“自主学习”算法模块进行自主学习,并通过Agent的大脑决策未来时段的水库操作,即发电出力;在此基础上,采用水库发电调度模拟的方式,估计并返回本次操作的奖励,即发电效益;随后,将水库状态、操作和效益以知识的方式存储到所述记忆库中,当记忆库中拥有足够的知识后,
在满足学习条件的情况下,开始学习记忆中的知识,然后再不断的进行实际调度操作,获得新知识并更新记忆库,以此循环学习

实际调度的过程,最终使Agent逐渐成熟并成为水库调度人工智能专家;将建立的水库调度人工智能专家用于该水库发电调度决策,确定该水库发电的最优控制过程。2.根据权利要求1所述基于DQN深度强化学习算法的...

【专利技术属性】
技术研发人员:任明磊徐炜刘昌军魏国振王刚赵丽平顾李华王凯张琪刘小虎
申请(专利权)人:重庆交通大学淮河水利委员会水文局信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1