一种基于深度强化学习的风洞试验调度方法及系统技术方案

技术编号:25837891 阅读:76 留言:0更新日期:2020-10-02 14:18
本发明专利技术适用于风洞试验技术领域,提供了一种基于深度强化学习的风洞试验调度方法及系统,该风洞试验调度方法及系统中,同时考虑了分支管线的利用率和分支管线开启阀门延迟时间,其中,目标函数的一个变量为分支管线的利用率,因而能够全局地考虑到风洞试验调度管线的分配,且这种分配中,对于下一步执行动作的选取,以通过最大化目标函数来获得,本发明专利技术的调度方法因而具有预测性,同时,能够实现最大化动力资源的使用率和最小化分支管线的开启/关闭次数,减少了动力设备的损耗;目标函数的另一变量为分支管线开启阀门延迟时间,因而能够提高预测的准确性,也能够保证实验的顺畅。

【技术实现步骤摘要】
一种基于深度强化学习的风洞试验调度方法及系统
本专利技术属于风洞试验
,尤其涉及一种基于深度强化学习的风洞试验调度方法及系统。
技术介绍
风洞试验是将飞行器模型或实物固定在一种管道状地面人工环境中(即风洞),依据运动的相对性原理,通过人为制造气流流过,来模拟飞行器或其他物体在空中各种复杂的飞行状态,从而获取试验数据,以了解实际飞行器或其他物体的空气动力学特性的一种空气动力实验方法。调度问题通常定义为:在一段时间内,为完成一组工作而相应地分配一套资源的问题,它广泛存在于能源、交通、生产、计算、紧急医疗、安全等领域,是一个复杂的组合优化问题。它可以是动态的,也可以是静态的。动态调度是以当前运行环境状态来决定作业或任务的顺序;静态调度通常是预先安排,是从给定的工作流中分配作业或任务。风洞试验调度则是围绕风洞试验这一特定场景展开的资源保障计划,属于动态调度的范畴,是风洞试验顺利开展的前提,也是复杂的多目标优化问题。在满足约束的条件下,如何最大化动力资源的使用率和最小化设备启停次数,减少对动力设备的损耗,以及按照时序给出最优的试验任本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的风洞试验调度方法,其特征在于,包括如下步骤:/n步骤S10:构建管线连通网络模型;/n步骤S20:根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;/n步骤S30:根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态;/n步骤S40:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;/n步骤S50:构建动作矩阵A,用于表示是否开启分支管线的阀门;/n步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作...

【技术特征摘要】
1.一种基于深度强化学习的风洞试验调度方法,其特征在于,包括如下步骤:
步骤S10:构建管线连通网络模型;
步骤S20:根据所述管线连通网络模型,构建主管线与分支管线的连通矩阵C;
步骤S30:根据当前时间步内风洞试验调度管线分配情况,构建状态矩阵S,状态矩阵S用于表示主管线与分支管线的连通关系与开闭状态;
步骤S40:根据时间周期T内的风洞试验需求情况,构建需求矩阵F,需求矩阵F用于表示时间周期T内的主管线与分支管线的连通关系、开闭状态及试验计划开始时间;
步骤S50:构建动作矩阵A,用于表示是否开启分支管线的阀门;
步骤S60:至少将分支管线的利用率、分支管线开启阀门延迟时间作为变量来构建目标函数,将需求矩阵F和状态矩阵S输入DDPG模型中进行训练,获得输出动作。


2.如权利要求1所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述管线连通网络包括风洞试验动力资源、汇聚节点、风洞试验主体,其中,风洞试验动力资源、汇聚节点之间通过主管线连接,汇聚节点与风洞试验主体之间通过分支管线连接。


3.如权利要求2所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述
连通矩阵C的元素,其中,cij表示第i条主管线下是否存在第j条分支管线,cij
=1时,表示存在第i条主管线下的第j条分支管线;cij=0时,表示不存在第i条主管线下的第j
条分支管线。


4.如权利要求3所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述
状态矩阵S的元素,其中,当sij=1时,表示第i条主管线下存在第j条
分支管线,且第i条主管线下的第j条分支管线处于开启状态;当时sij=-1时,第i条主管线下
存在第j条分支管线,且第i条主管线下的第j条分支管线处于关闭状态;sij=0时,表示第i条
主管线下不存在第j条分支管线。


5.如权利要求4所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述
动作矩阵A的元素,其中,当aij=1时,将第i条主管线下存在的第j条分支
管线的阀门开启;当aij=-1时,将第i条主管线下存在的第j条分支管线的阀门关闭。


6.如权利要求5所述的一种基于深度强化学习的风洞试验调度方法,其特征在于,所述步骤S60中,其中,目标函数为J(θμ),

;
其中,θμ表示对确定性策略函数μ进行模拟的神经网络参数;是θμ的期望函数;时
刻t+k属于时间周期T内的时刻点,Rt+k表示t+k时刻点的管线的平均利用率和试验总延迟,
将Rt+k作为t+k时刻的回报,k表示设定的时刻点的个数,γ是远期回报的折扣率。


7.如权利要求6所述的一种基于深度强...

【专利技术属性】
技术研发人员:明丽洪熊建军王桂芝罗昌俊王小飞何福袁海文侯昱珂
申请(专利权)人:中国空气动力研究与发展中心低速空气动力研究所
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1