当前位置: 首页 > 专利查询>南开大学专利>正文

一种基于多任务强化学习的流固耦合系统控制方法技术方案

技术编号:35274565 阅读:55 留言:0更新日期:2022-10-19 10:52
本发明专利技术涉及计算机图形学流体动力学模拟领域,尤其是一种基于多任务强化学习的流固耦合系统控制方法,包括基于元强化学习方法,训练通用的控制器,生成指定模拟环境和目标下的动画,本发明专利技术提出了一个统一的强化学习框架来实现可迁移多任务流体控制,通过元学习的方法来编码模拟器的信息,实现了控制算法在不同模拟器之间的迁移,避免重复训练带来的大量消耗。同时结合新的任务表示,实现了多任务控制,实现了在模拟环境和任务目标两个方面的可迁移性,用户可以方便地调节模拟器参数或者任意指定目标,并且可以快速地将训练好的控制器迁移过来进行使用,而无需重复训练。而无需重复训练。而无需重复训练。

【技术实现步骤摘要】
一种基于多任务强化学习的流固耦合系统控制方法


[0001]本专利技术涉及计算机图形学流体动力学模拟领域,尤其涉及一种基于多任务强化学习的流固耦合系统控制方法。

技术介绍

[0002]流体控制算法使艺术家能够根据自己的需要控制流体的运动。其中有基于关键帧的控制方法,通过用户提供几个关键帧并使流体以符合物理的,相似的形状移动来实现;利用低分辨率模拟器辅助高分辨率模拟器进行大规模仿真的方法;使用数据驱动方法从动画数据集插值和合成新动画的方法;以及通过从低分辨率模拟中的插值生成超分辨率流体动画的方法。这些方法可以控制非耦合系统中流体的形状或运动,但不能同时控制固体的运动。
[0003]强化学习近年来在机器人控制领域,游戏AI等方面取得了非常大的进展。利用端到端的神经网络方法,在计算机图形学领域,强化学习已经被用于控制复杂动画角色的运动,操纵颗粒状材料,或者驱动流体来控制刚体对象。Pingchuan Ma已经在“Fluid directed rigid body controlusing deep reinforcement learning”中控制高自由度的流固耦合系统,但是该方法的采样效率低,并且不具备良好泛化性,训练时间长且训练好的控制器不能灵活迁移到相似的其它模拟器上,因此该方法只能用于低精度的二维流固耦合控制,比较大的限制了数据驱动的流体控制方式在高精度流体仿真中的应用。
[0004]因此,设计一种基于多任务强化学习的流固耦合系统控制方法解决上述问题成为了本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术所要解决的技术问题是克服现有技术中存在的不足,提供一种基于多任务强化学习的流固耦合系统控制方法,这是一种可泛化流体控制方法,该方法的泛化性主要体现在控制器在不同模拟器之间的泛化以及控制器在不同任务目标之间的泛化。使用元强化学习的方法,在一系列不同的流固耦合模拟器中训练控制器,训练完毕的控制器可以以非常小的计算代价迁移到新的模拟器中使用。此方法也可以使用低精度模拟器下采集的数据进行训练,并且应用到高精度的模拟器中来实现控制目标。此外,还提出一种新的任务表示方法,可以集成进算法框架,使用该方法可以高效的进行多任务学习,即可以使用单个控制器完成不同的给定目标。
[0006]本专利技术是通过以下技术方案予以实现:一种基于多任务强化学习的流固耦合系统控制方法,包括以下步骤:
[0007]S1:基于元强化学习方法,训练通用的控制器,具体包括:
[0008]S11:随机初始化模拟器的物理参数,生成多种模拟器;
[0009]S12:使用S11中的模拟器训练流体的编码器,获取流体速度场的低维表示;
[0010]S13:初始化强化学习Value网络,Q网络以及策略网络的参数;
[0011]S14:使用策略网络生成控制器动作,执行模拟步骤采集数据,存入经验池;若为多任务控制场景,根据任务表示和事后经验重播机制产生新的数据轨迹,并存入经验池;
[0012]S15:利用S14中采集的数据,计算网络的损失函数和任务的奖励函数,更新模拟器编码网络,actor

critic网络;
[0013]S16:返回S14,直至每一次完整采样获取的奖励函数值不再明显增加;
[0014]S17:指定一个目标模拟器的参数和控制子任务,采样少量数据使编码器的输出收敛;
[0015]S18:基于编码器的输出,使用策略网络输出动作,在新的模拟器中执行控制任务;
[0016]S2:生成指定模拟环境和目标下的动画。
[0017]根据上述技术方案,优选地,S11中具体为:
[0018]模拟器的物理参数包括:重力、网格精度,固液密度比以及固体形状,从而根据模拟器的物理参数生成物理量不同的模拟器。
[0019]根据上述技术方案,优选地,S12中的低维状态表示为:其中,u为流体速度场,ψ(u)为流体速度场的低维特征空间,q为位置信息,c为速度信息。
[0020]根据上述技术方案,优选地,S15具体包括:先通过模拟器编码网络输出一个低维向量来映射当前模拟器的参数信息,并作为State的一部分输入actor

critic网络,用于更新网络参数。
[0021]根据上述技术方案,优选地,actor

critic网络结合Q网络和Value网络来计算advantage函数并通过最小化策略网络和Q网络KL散度来更新策略网络。
[0022]根据上述技术方案,优选地,S18具体包括:
[0023]使用离线强化学习算法来训练策略网络,具体包括:
[0024]将优化目标与最大熵项相结合,从而将优化问题变为寻找一个最优策略π(a|s),以优化以下公式:
[0025][0026]其中,π为策略,s
t
表示t时刻的状态向量,a
t
表示t时刻的动作向量,p(s0)表示初始状态的概率分布,r
t
为t时刻获得的奖励函数,为最大熵,α为用于调节最大熵项的权重系数,E表示数学期望,将离线强化学习算法与潜在变量z结合,训练一个执行网络来执行一个策略,训练一个评价网络来评估这个策略的表现,评价网络由Q网络和Value网络构成,使用扩展Q函数Q
θ
(s,a,z)作为评价网络来判断动作a在状态s,z下的期望奖励,扩展Value函数V(s
t+1
,z)表示t+1时刻所处状态的期望奖励,当前策略下执行动作的概率被表示为
[0027]评价网络通过TD

λ方法更新,被写为:
[0028][0029]其中γ为衰减因子,D为存储每一步变量s
t
和a
t
的经验池,z为潜在变量,q
φ
为环境编码网络,潜在变量z通过环境编码网络q
φ
从所有时间步t的状态转移元组集合中得到;
[0030]执行网络的损失可以写为策略和Q值项之间的KL散度:
[0031][0032]其中,Z
θ
(s
t
)是使Q函数归一化的系数,D
KL
表示KL散度。
[0033]根据上述技术方案,优选地,S14中的多任务控制场景具体包括:
[0034]多体任务包含多个目标共同控制,其目标是由多个实体组成的离散集合,目标向量总是与状态向量(s,g)结合起来处理多目标问题,其中g为一个表示当前目标组合的向量;
[0035]设定任务目标集的组合固定,预先标记每一类子任务,并重新排列固体对象状态向量的顺序,以反映其子任务标签,从而消去向量g的显式表示,把它隐式地表示在s中对应地排序中,使用这种表示方法可以极大地降低多任务控制地训练复杂度;
[0036]多个对象和任务的控制问题通常具有稀疏的奖励信号,其中正奖励的轨迹很少且几乎没有采样,采用事后经验重播来增加正样本的数量。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,包括以下步骤:S1:基于元强化学习方法,训练通用的控制器,具体包括:S11:随机初始化模拟器的物理参数,生成多种模拟器;S12:使用S11中的模拟器训练流体的编码器,获取流体速度场的低维表示;S13:初始化强化学习Value网络,Q网络以及策略网络的参数;S14:使用策略网络生成控制器动作,执行模拟步骤采集数据,存入经验池;若为多任务控制场景,根据任务表示和事后经验重播机制产生新的数据轨迹,并存入经验池;S15:利用S14中采集的数据,计算网络的损失函数和任务的奖励函数,更新模拟器编码网络,actor

critic网络;S16:返回S14,直至每一次完整采样获取的奖励函数值不再明显增加;S17:指定一个目标模拟器的参数和控制子任务,采样少量数据使编码器的输出收敛;S18:基于编码器的输出,使用策略网络输出动作,在新的模拟器中执行控制任务;S2:生成指定模拟环境和目标下的动画。2.根据权利要求1所述的一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,S11中具体为:模拟器的物理参数包括:重力、网格精度,固液密度比以及固体形状,从而根据模拟器的物理参数生成物理量不同的模拟器。3.根据权利要求1所述的一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,S12中的低维状态表示为:其中,u为流体速度场,ψ(u)为流体速度场的低维特征空间,q为位置信息,c为速度信息。4.根据权利要求3所述的一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,S15具体包括:先通过模拟器编码网络输出一个低维向量来映射当前模拟器的参数信息,并作为State的一部分输入actor

critic网络,用于更新网络参数。5.根据权利要求4所述的一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,所述actor

critic网络结合Q网络和Value网络来计算advantage函数并通过最小化策略网络和Q网络KL散度来更新策略网络。6.根据权利要求1所述的一种基于多任务强化学习的流固耦合系统控制方法,其特征在于,所述S18具体包括:使用离线...

【专利技术属性】
技术研发人员:任博叶骁寒潘哲融张泰源
申请(专利权)人:南开大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1