当前位置: 首页 > 专利查询>浙江大学专利>正文

基于专家演示的主动流动控制数据获取方法、主动流动控制方法及装置制造方法及图纸

技术编号:37151811 阅读:46 留言:0更新日期:2023-04-06 22:08
本发明专利技术提供了一种基于专家演示的主动流动控制数据获取方法、主动流动控制方法及装置。本发明专利技术基于深度神经网络建立多维代理模型,结合高斯混合模型表征代理模型不确定性,在保证模型准确度条件下,使用粒子群启发式算法动态迭代寻找最佳静态主动流动闭环控制参数来提供深度学习专家演示知识。本发明专利技术建立一个决策智能体,以回合形式进行数值模拟流动控制过程并评估流动控制策略,将仿真数据存储至已预混专家演示知识的经验池,深度强化学习从经验池中随机读取过往经验调整策略。基于专家演示技术的强化学习方法,可以快速探索鲁棒高效的主动流动控制策略以抑制圆柱的涡致振动现象,减少主动流动控制装置训练的样本数据需求量。求量。求量。

【技术实现步骤摘要】
基于专家演示的主动流动控制数据获取方法、主动流动控制方法及装置


[0001]本专利技术涉及一种基于专家演示的主动流动控制数据获取方法、主动流动控制方法及装置,通过深度神经网络技术建立代理模型,使用高斯混合模型动态更新和完善代理模型,基于粒子群启发式优化算法寻找专家演示知识,预混入软决策者

评估者(Soft Actor

Critic)算法所建立的经验池中。为动态调整人工神经网络的参数提供高质量数据,减少对主动流动控制数值模拟仿真的数据需求量,提高训练效率,属于主动流动控制领域。

技术介绍

[0002]由于流体力学的高维度和强非线性特性,使用传统控制方式设计主动流动控制策略往往是一件非常繁琐的工作,基于深度神经网络的强化学习通过与模拟环境往复的交互,在尝试错误的过程中建立从系统状态直接到控制输出的端到端的控制策略。然而,强化学习需要大量的交互犯错去修正控制策略,这对耗时耗资源的计算流体力学数值仿真技术而言是一个巨大的负担。因此,为了提高强化学习在主动流动控制工程问题中的实际应用价值,需要为深度强化学习算法提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于专家演示的主动流动控制数据获取方法,其特征在于,包括:建立表征静态控制参数与圆柱体涡致振动幅度之间的代理模型;所述代理模型由深度神经网络技术建立:Y
A
=f
NN
(g1,g2)其中,Y
A
为圆柱质心稳定振动幅度,f
NN
为由深度神经网络建立的映射;静态控制参数(g1,g2)为闭环控制的控制律,指定策略条件下为静态参数,不随流动状态改变而改变;基于静态控制参数空间采样及数值模拟的圆柱质心稳定振动幅度数据对所述代理模型进行训练,再基于训练好的代理模型预测结果生成专家演示轨迹获得主动流动控制数据。其中,静态控制参数空间采样的方法包括如下动态采样方法:基于高斯混合模型表征代理模型建模不确定性,使用启发式算法求解多目标优化问题在静态控制参数空间进行动态采样;其中所述高斯混合模型在静态控制参数空间中,用多个高斯概率分布精确地量化静态控制参数的分布,如下所示:个高斯概率分布精确地量化静态控制参数的分布,如下所示:其中,k表示第k个高斯概率分布的概率密度函数,K表示该模型共包含K个高斯概率分布,N表示一个高斯概率分布的概率密度函数,x表示样本点也即静态控制参数(g1,g2),Y
p
表示样本点在该高斯混合模型分布下的概率,τ为高斯混合模型的参数,包括各个高斯概率密度函数的权重α
k
,均值μ
k
以及方差高斯混合模型的参数更新公式如下所示:高斯混合模型的参数更新公式如下所示:q
ik
=p(z
k
|x
i
;τ
n
‑1)其中,n表示迭代次数,i表示第i个已采集的实际样本点,M表示数据集采集的实际样本点数,z
k
表示属于第k个高斯概率分布;p为概率函数,B表示参数τ的对数似然函数的下界函数,也是优化的目标函数;所述多目标优化问题为:其中,Y
A
为基于代理模型预测的样本点x对应的稳定振动幅度,Y
p
表示样本点在该高斯混合模型分布下的概率,α为权重,x
next
为下一个评估的静态控制参数。2.根据权利要求1所述的方法,其特征在于,所述基于训练好的代理模型预测结果生成专家演示轨迹获得主动流动控制数据具体为:求解基于代理模型的优化问题,找到最优静态控制参数,并用计算流体力学技术进行流动控制的仿真与模拟,将控制轨迹存入深度强
化学习的经验池中,所述基于代理模型的优化问题下:其中,x
optimal
为代理模型预测的最优静态控制参数;对于每一条专家演示知识轨迹,按照深度强化学习算法所需的马尔可夫过链模型格式化为t时刻圆柱体及周围流场的瞬时系统状态s
t
,控制动作a
t
,t+1时刻圆柱体及周围流场的瞬时系统状态s
t+1
,以及控制动作a
t
对应的奖惩函数r
t
和终结状态变量done
t
;圆柱体及周围流场的瞬时系统状态s
t
包含圆柱运动状态信息、流场的速度和压力信息;奖惩函数r
t
表示如下:r
t
=κd
t
+χv
t
其中,d
t
为圆柱体质心位移,v
t
为圆柱体质心速度,κ和χ为对应权重。3.根据权利要求2所述的方法,其特征在于,静态控制参数(g1,g2)与控制动作的关系为:a
t
=g1·
d
t
+g2·
v
t
下标t表示时间步序号,a
t
为t时刻的控制动作,d
t
为t时刻的涡致振动圆柱体质心位移,v
t
为t时刻的涡致振动圆柱体质心速度。控制动作a
t
为施加给圆柱体表面的吹吸装置的动作,用于改变附近流场。4.如权利要求1所述的方法,其特征在于,所述代理模型的人工神经网络结构包含三层全连接隐藏层,每层全连接隐藏层各...

【专利技术属性】
技术研发人员:谢芳芳季廷炜郑畅东张鑫帅陆宇峰周宏杰郑耀
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1