【技术实现步骤摘要】
一种基于DQN深度强化学习算法的单一水库智能防洪调度方法
[0001]本专利技术涉及人工智能
,特别涉及一种基于DQN深度强化学习算法的单一水库智能防洪调度方法。
技术介绍
[0002]2016年,围棋AlphaGo的成功,激活了人工智能的潜力。AlphaGo的出现具有里程碑的意义,由此掀起了人工智能发展浪潮。在此浪潮推动下,将进一步加快其核心技术的发展和向其他行业的衍生。在AlphaGo的对弈过程中,每一步的决策均需要考虑其后效性和最大的取胜概率。AlphaGo中最为核心的算法就是深度强化学习(Deep Reinforcement Learning,DRL),该算法适用于状态vs.决策的模式,尤其适用于具有马尔科夫性质的决策过程。
[0003]传统的强化学习理论在过去几十年中得到了不断的完善,但还是难以解决现实世界中的复杂问题,尤其在多状态和多决策。深度强化学习DRL是深度学习与强化学习相结合的产物。DRL集成了深度学习在视觉、认知等问题上强大的理解能力,以及强化学习的决策能力,形成了从感知(Perception)到动作(Action)的端到端学习(End
‑
to
‑
End Learning)的全新模式。该模式使机器学习具备真正意义的“自主学习”潜力。DRL技术使得人工智能技术真正走向实用,使其在高维状态和决策的复杂环境中具有强大的学习和生存能力。
[0004]在水利行业中,水库调度具有典型的马尔科夫决策过程的特性,调度决策依赖于水库的蓄水和来水等状态条件,
【技术保护点】
【技术特征摘要】
1.一种基于DQN深度强化学习算法的单一水库智能防洪调度方法,其特征在于,所述方法包括以下步骤:步骤1:构建基于人工智能的水库调度“无监督深度学习”模型:以DRL技术架构为基准,分别建立Agent的大脑、记忆库以及“自主学习”算法模块;所述Agent的大脑采用Deep Q
‑
Network(DQN)算法构建,并具有双层神经网络,分别为Action Network(AN)和Target Network(TN);所述记忆库中,存储的是调度过程中产生的调度知识,每个时段的调度决策,都能形成一条知识;所述自主学习模块基于Bellman方程的价值函数不断增加,从而体现Agent决策能力的不断提高;随着学习次数的增加,本次学习价值函数采用邻近k次学习计算的价值函数的平均值来体现,公式为:式中,u
k
为第k次学习给定调度状态条件下的决策价值函数;u
i
为第i次学习给定调度状态条件下的决策价值函数;U
k
为第k次学习通过本次学习后获得的平均价值函数;U
k
‑1为第k
‑
1次学习通过本次学习后获得的平均价值函数;“自主学习”后,价值函数的更新采用以下公式实现:U
k
(S
t
,A
t
)=(1
‑
α)U
k
‑1(S
t
,A
t
)+α
·
u(S
t
,A
t
)式中,S
t
为t时段初的条件属性,A
t
为t时段初的决策属性;α为学习率;u为给定调度状态条件下的决策价值函数;在水库发电调度的决策价值估计中,依据状态S
t+1
计算决策集合中各决策的U值,上式中的U值,采用平均值的方式评估决策效益,公式为:式中,R
t
为t时段获得的决策效益值;S
t+1
为t时段末的条件属性,为t时段末的决策属性;λ为折扣因子;每次学习后,依据价值函数的变化作为梯度下降法更新Neural Network权重参数的误差反馈,公式为:E
k
=U
k
‑
U
k
‑1式中,E
k
为第k
‑
1和第k次学习的价值函数差值;步骤2:以水库发电调度为基础建立DRL的奖励反馈:依据当前时段的状态和得到的决策,评估本次决策的效益,并以奖励的形式反馈;其中,以发电量和是否达到保证出力作为效益评估的指标;步骤3:基于水库实测入库径流过程建立针对某水库的调度人工智能专家:以实测的某水库入库径流信息及其对应的调度时段为输入状态,通过所述“自主学习”算法模块进行自主学习,并通过Agent的大脑决策未来时段的水库操作,即发电出力;在此基础上,采用水库发电调度模拟的方式,估计并返回本次操作的奖励,即发电效益;随后,将水库状态、操作和效益以知识的方式存储到所述记忆库中,当记忆库中拥有足够的知识后,
在满足学习条件的情况下,开始学习记忆中的知识,然后再不断的进行实际调度操作,获得新知识并更新记忆库,以此循环学习
‑
实际调度的过程,最终使Agent逐渐成熟并成为水库调度人工智能专家;将建立的水库调度人工智能专家用于该水库发电调度决策,确定该水库发电的最优控制过程。2.根据权利要求1所述基于DQN深度强化学习算法的...
【专利技术属性】
技术研发人员:任明磊,徐炜,刘昌军,魏国振,王刚,赵丽平,顾李华,王凯,张琪,刘小虎,
申请(专利权)人:重庆交通大学淮河水利委员会水文局信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。