当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于强化学习的主动流动控制方法技术

技术编号:33838752 阅读:78 留言:0更新日期:2022-06-16 12:00
本发明专利技术提供了一种基于强化学习的主动流动控制方法。该方法通过近端策略优化(PPO)方法以及全连接层人工神经网络将机翼的升阻系数作为奖励函数,通过与流场环境的不断交互,来优化奖励函数,最终得到了收敛的控制策略。通过控制位于机翼30%弦长处的吹吸控制装置,实现机翼的增升减阻效果。实现机翼的增升减阻效果。实现机翼的增升减阻效果。

【技术实现步骤摘要】
一种基于强化学习的主动流动控制方法


[0001]本专利技术涉及一种基于强化学习的主动流动控制方法,通过智能体与流场环境不断交互,智能体从环境中获取流场信息,控制机翼上的吹吸装置,影响流场环境,从而达到机翼增升减阻的效果,属于流动控制领域。

技术介绍

[0002]设计主动流动控制策略是一项复杂的工作。给定对象周围的流动压力或速度的一组测量值,没有简单的方法来找到一种策略来使用此信息来进行主动控制并减少阻力。流体力学固有的复杂性和非线性决定了解决方案的高维度和计算成本,意味着难以实现解析解和实时预测模拟。在大多数已发表的关于主动流动控制的著作中使用的控制策略都非常简单,主要为谐波或恒定控制输入。因此,需要开发有效的控制方法,其执行复杂的主动控制并充分利用致动可能性。

技术实现思路

[0003]为了达到上述目的,本专利技术采用的技术思路如下:
[0004]一种基于强化学习的主动流动控制方法,该方法通过一训练好的策略神经网络π
θ
根据机翼周围的流场信息输出布置于机翼上的吹吸装置的执行动作a
t
,实现对机翼的主动流动控制。其中,所述机翼周围的流场信息为通过布置于机翼周围的多个探点探测到的速度场;所述策略神经网络π
θ
通过如下方法训练获得:
[0005]步骤S1,构建包含策略神经网络π
θ
的智能体与环境模拟器。其中,环境模拟器用于模拟机翼在失速条件下的扰流流场;智能体包括策略神经网络π
θ
和价值神经网络Vr/>φ
,所述策略神经网络π
θ
用于根据环境信息输出执行动作a
t
,控制机翼上的吹吸装置。吹吸装置吹气或者吸气将会改变流场。价值神经网络V
φ
用于根据环境信息输出当前状态的好坏评价。
[0006]步骤S2,环境模拟器初始化机翼在失速条件下的流场状态。其中,环境模拟器采用数值模拟仿真软件计算机翼在大迎角来流下的失速流场状态。当非定常流动呈现稳定周期性变化时,结束计算。选择其中对应机翼质心处于平衡点的时刻的流场状态作为每一训练幕的初始状态。
[0007]步骤S3,智能体根据环境模拟器反馈的流场状态信息s
t
,输出执行动作a
t
,改变吹吸装置的喷口速度。环境模拟器根据吹吸装置的喷口速度模拟流场变化过程,得到n个时间步长的瞬时流场状态,并计算奖励函数。其中,奖励函数与机翼在上一个涡脱落周期内的平均升阻系数有关:
[0008]r
t


(CD>
T
+0.2|<C
L
)
T
|
[0009]其中,t为瞬时时刻,<
·
>T表示在对应于一个机翼的涡脱落周期的持续时间内的平均值;C
D
为阻力系数,C
L
为升力系数。
[0010]同时根据当前瞬时时刻之后k步的流场状态和奖励函数计算当前瞬时时刻累计回报函数和优势函数其中,
[0011][0012][0013]其中,k表示当前幕循环过程中当前时刻之后的第k时间步,γ为折扣因子;表示当前时刻之后的第k时间步对应的价值神经网络的输出。
[0014]根据PPO

Clip目标函数更新策略神经网络参数,同时根据均方误差函数更新价值神经网络的参数,直至流场为终止状态;然后重新选择初始流场状态进行新一幕训练,直至达到训练幕数最大迭代值,结束循环获得训练好的策略神经网络。其中,更新策略神经网络参数θ、价值神经网络的参数φ表示如下:
[0015][0016]其中,T

为t时刻到第k时间步的时长,∈为超参数,π
θ
(a
t
|s
t
)表示当前时刻的策略神经网络π
θ
在状态s
t
下采取动作a
t
的概率,表示当前时刻之后的第k时间步的策略神经网络在状态s
t
下采取动作a
t
的概率,表示第k时间步下的策略所采样得到的优势函数A,g函数为:
[0017][0018][0019]进一步地,所述策略神经网络结构为3层全连接层,每层后接批量归一层,输入环境状态s,输出动作的平均值μ(s)和标准差σ(s),最终动作可计算为
[0020]a=μ(s)+σ(s)

z
[0021]其中,价值神经网络结构为3层全连接层,每层后接批量归一层,输入环境状态s,输出当前状态的好坏V
φ
(s),

表示点乘。
[0022]进一步地,所述步骤S3中,智能体给出的动作在当前幕内保持恒定,每隔一幕(n个时间步长),智能体与环境交互一次。为了避免由于使用不可压缩求解器而导致压力和速度的跃变。在每个时间步长处的射流为c
t+1
=c
t
+α(a

c
t
),其中c
t
是在上一个时间步长处射流的控制量,c
t+1
是新的控制,a是PPO智能体针对当前n个时间步长给出的动作,α=0.1是参数。
[0023]本专利技术的有益效果为:智能体通过与流场环境交互,通过输入流场信息,改变机翼上的喷口速度,实现了机翼的增升减阻效果。
附图说明
[0024]图1为本专利技术的流程图;
[0025]图2为二维机翼的计算域示意图;
[0026]图3为机翼尾流示意图;
[0027]图4为训练过程中机翼阻力系数的变化;
[0028]图5为主动控制前后阻力系数的变化;
[0029]图6为主动控制前后升力系数的变化;
[0030]图7为智能体给出的主动控制策略;
[0031]图8为主动控制前后流场的变化。
具体实施方式
[0032]下面结合附图对本专利技术进行详细的描述。
[0033]图1是本申请提供的一种基于强化学习的主动流动控制方法流程图。
[0034]本实施例考虑一种二维机翼,环境工况采用飞行器的失速状态,在当前的模拟中设置了18m/s的来流速度,机翼攻角为15度和0.53%弦长的控制槽宽度,流量控制位置位于30%处弦长位置,与机翼表面成25
°
的射流角。无量纲时间步长为Δt
+
=5
×
10
‑2,从而确保每个流量周期都包含足够的时间步长。
[0035]计算域如图2所示,在入口和出口边界分别使用了速度入口和压力出口条件,含有11423个节点,23236个三角形网格单元。
[0036]具体地,强化学习过程包括:
[0037]步骤S1,构建智能体与环境。其中,环境为机翼在失速条件下的扰流流场,通过环本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的主动流动控制方法,其特征在于,该方法通过一训练好的策略神经网络π
θ
根据机翼周围的流场信息输出布置于机翼上的吹吸装置的执行动作a
t
,实现对机翼的主动流动控制;其中,所述机翼周围的流场信息为通过布置于机翼周围的多个探点探测到的速度场;所述策略神经网络π
θ
通过如下方法训练获得:步骤S1,构建包含策略神经网络π
θ
的智能体与环境模拟器;其中,环境模拟器用于模拟机翼在失速条件下的扰流流场;智能体包括策略神经网络π
θ
和价值神经网络V
φ
,所述策略神经网络π
θ
用于根据流场信息输出执行动作a
t
,控制机翼上的吹吸装置;吹吸装置吹气或者吸气将会改变流场;价值神经网络V
φ
用于根据流场信息输出当前状态的好坏评价;步骤S2,环境模拟器初始化机翼在失速条件下的流场状态;其中,环境模拟器采用数值模拟仿真软件计算机翼在大迎角来流下的失速流场状态;当非定常流动呈现稳定周期性变化时,结束计算;选择其中对应机翼质心处于平衡点的时刻的流场状态作为每一训练幕的初始状态;步骤S3,智能体根据环境模拟器反馈的流场状态信息s
t
,输出执行动作a
t
,改变吹吸装置的喷口速度;环境模拟器根据吹吸装置的喷口速度模拟流场变化过程,得到n个时间步长的瞬时流场状态,并计算奖励函数;其中,奖励函数与机翼在上一个涡脱落周期内的平均升阻系数有关:r
t


<C
D
>
T
+0.2|<C
L
>
T
|其中,t为瞬时时刻,<
·
>T表示在对应于一个机翼的涡脱落周期的持续时间内的平均值;C
D
为阻力系数,C
L
为升力系数;同时根据当前瞬时时刻之后k步...

【专利技术属性】
技术研发人员:谢芳芳季廷炜谢李兴张鑫帅朱灶旭郑耀
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1