当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于改进Q-learning的水资源优化调度方法与系统技术方案

技术编号:42214552 阅读:24 留言:0更新日期:2024-07-30 18:55
本发明专利技术公开了一种基于改进Q‑learning的水资源优化调度方法与系统,方法包括如下步骤:1)对水资源调度涉及的实体对象进行分级建模,并根据分级信息确定可参与调度的对象集合;2)考虑不同领域的水资源需求满足率和/或用水产生的主体效益,建立水资源调度优化模型;3)构建改进Q‑learning算法,求解水资源调度优化模型,获得水资源调度方案集。本发明专利技术通过考虑不同领域的水资源需求和/或用水产生的主体效益,建立水资源调度优化模型,并构建了一种面向该模型的改进Q‑learning算法,最终利用改进的算法求解优化模型,利用该方法可智能计算获得跨流域等规模化区域内的水资源调度方案集,解决目标地区范围性、季节性的缺水问题,提高水资源的利用率。

【技术实现步骤摘要】

本专利技术涉及一种基于改进q-learning的水资源优化调度方法的设计与应用,属于水资源优化配置。


技术介绍

1、强化学习是人工智能研究的一个重要领域,也是机器学习其中一个分支,其本质是拟合输入到输出的模型。其前身监督学习需要依据指定样本进行学习,在样本空间大、覆盖率低的情况下,对于未覆盖到领域,模型无法给出有效结果,通用性也相对较差;但随着机器学习的发展,强化学习因为其特性:对于没有被覆盖样本的探索,也就是与环境交互,使得其通用性大大提高;同时,强化学习经过不断地更迭改进,对于大样本空间下的收敛问题也有了很好的解决方法,有了较高的实用性,可以用来处理实际问题,如利用强化学习算法可以有效完成水库防洪调度任务,从而优化水库下泄过程;

2、传统的解决水资源调度问题的方法,大致分为两种:第一种,建立目标流域的系统模型,采用仿真模拟的方法,利用计算机的运算能力快速对目标流域的水资源进行模拟分配,寻找可行的调度方案;第二种,建立水资源调度的数学模型,依据目标流域的需求与相关要求构建目标函数与约束条件,采用最优化方法对数学模型求解,得到水资源调度的最优结本文档来自技高网...

【技术保护点】

1.一种基于改进Q-learning的水资源优化调度方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于改进Q-learning的水资源优化调度方法,其特征在于,水库对象及其属性信息符号化建模为Si(Vi,t,LVi,UVi,SVi,Dk,SLi,t,DXi,t,EXi,t,IXi,t,AXi,t,Xi,t,Yi,t,PSi,t,li),其中,Si表示第i个水库;Vi,t为水库i第t时段的库容;LVi为水库i的库容下限;UVi为水库i的库容上限;SVi为水库i的最大蓄水量;Dk为水库i的供水区k;SLi,t为水库i第t时段的总来水量;Xi,t为水库i在供水区k第t时...

【技术特征摘要】

1.一种基于改进q-learning的水资源优化调度方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于改进q-learning的水资源优化调度方法,其特征在于,水库对象及其属性信息符号化建模为si(vi,t,lvi,uvi,svi,dk,sli,t,dxi,t,exi,t,ixi,t,axi,t,xi,t,yi,t,psi,t,li),其中,si表示第i个水库;vi,t为水库i第t时段的库容;lvi为水库i的库容下限;uvi为水库i的库容上限;svi为水库i的最大蓄水量;dk为水库i的供水区k;sli,t为水库i第t时段的总来水量;xi,t为水库i在供水区k第t时段的总用水量;yi,t为水库i第t时段的储水量;psi,t为水库i第t时段的排水量;li为水库i的工程等级;河道对象及其属性信息符号化建模为rj(sp,sq,σj,t),其中rj表示第j条河道;sp为河道上游水库p;sq为河道下游水库q;σj,t为下游水库缺水率;供水区对象及其属性信息符号化建模为dk(lsk,t,dsk,t,dwk,t,ewk,t,iwk,t,awk,t),其中dk表示供水区k;lsk,t为供水区k第t时段的来水量;dsk,t为供水区k第t时段的需水量;dwk,t,ewk,t,iwk,t,awk,t分别为供水区k第t时段的生活需水量、生态需水量、工业需水量、农业需水量。

3.根据权利要求1所述的基于改进q-leaming的水资源优化调度方法,其特征在于,所述水资源调度优化模型为水资源调度双目标优化模型;其中,目标函数为:

4.根据权利要求1所述的基于改进q-leaming的水资源优化调度方法,其特征在于,构建改进q-learning算法,求解水资源调度优化模型的具体步骤包括:①根据水资源调度优化模型的约束条件,确定每个智能体si的状态s与动作a的取值范围;针对单目标或分别针对双目标建立与si等数量的多智能体状态-动作表ti(st,at);②遍历各智能体si,获取其st并根据构建的单/双目标优化智能体行动策略选取本次训练执行的动作at;③设计单/双目标奖励函数,计算执行动作at后智能体变为st+1的奖励r;④在期望值函...

【专利技术属性】
技术研发人员:张丽丽王文昊吴巍王高旭张轩许怡施睿李岱远
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1