一种智能鱼流场模拟控制方法、系统、设备及存储介质技术方案

技术编号:37473562 阅读:17 留言:0更新日期:2023-05-06 09:58
本发明专利技术公开了一种智能鱼流场模拟控制方法、系统、设备及存储介质,通过流场识别、动作迁移、状态分析、目标动作选取、目标动作执行、经验样本组建、估算模型训练更新以及新状态分析等环节所构成的智能鱼闭环模拟控制过程,可以使得智能鱼自动识别流场环境,自主做出游动决策判定,更接近真实鱼类的行为,以使其适用于鱼类仿生相关的科研领域,为解决鱼类生物学、行为学以及游泳动力学提供相应的支持,并为不断发展的生态数字孪生建设提供技术支持。本发明专利技术可以达到已有游泳策略在不同流场环境中迁移的目的,通过流场识别对当前流场的参数进行初步感知识别,结合动作迁移使已有的游泳策略在陌生流场环境下兼容适用。策略在陌生流场环境下兼容适用。策略在陌生流场环境下兼容适用。

【技术实现步骤摘要】
一种智能鱼流场模拟控制方法、系统、设备及存储介质


[0001]本专利技术属于仿生模拟
,具体涉及一种智能鱼流场模拟控制方法、系统、设备及存储介质。

技术介绍

[0002]对于鱼类游动的研究,目前主要有室内实验、野外勘察、数值模拟几种手段。其中,数值模拟手段大多通过计算流体力学的方法建立鱼类游动流固耦合模型,并给定运动自由度,从而模拟智能鱼的巡游游动,随着近些年来机器学习等智慧型算法的普及,对鱼类游泳行为的数值模拟又进入到了一个新的阶段。
[0003]目前,对鱼类游动大型智慧计算平台的搭建方法主要基于传统流固耦合技术和深度强化学习算法搭建,传统流固耦合模拟技术主要分为界面捕捉类方法和界面追踪类方法,界面捕捉类方法包括流体体积算法(Volume of Fluid Methods,VOF)和浸没边界法(Immersed Boundary,IB)等,界面追踪类方法包括任意拉格朗日

欧拉算法(Arbitrary Lagrangian Eulerian,ALE)和变形空间域/稳定时空算法(Deforming

Spatial

Domain/Stabilized Space

Time,DSD/SST)等。这两类方法的主要区别在于,在流固界面的计算中,界面追踪采用Lagrange坐标,而界面捕捉还吸收了Euler方法的优点,上述两种方法都可成功应用于鱼类游动大型智慧计算平台的搭建中。
[0004]深度强化学习(Deep reinforcement learning,DRL)是机器学习的一个子集,它将深度神经网络与强化学习相结合,以控制复杂高维系统。深度强化学习算法具有的优势包括:1、能够处理高维和连续状态空间;2、模拟真实世界,深度强化学习算法可以在模拟真实世界的环境中进行学习;3、自动特征提取,深度强化学习算法可以自动学习各类特征并进行高维空间的表示,无需特殊标记,提高了模型的表示和泛化能力;4、自我学习和自进化,深度强化学习算法可以自我学习,并在不断的学习过程中不断提高自己的性能。目前深度强化学习算法主要分为基于值的计算方法和基于策略的计算方法,以及两类算法的组合,基于值的方法包括深度Q网络算法(Deep Q Network)、值分布强化学习算法(Distributional Reinforcement Learning)等,基于策略的计算方法包括深度策略梯度算法(Deep Deterministic Policy Gradient,DDPG)、近端策略优化算法(Proximal Policy Optimization,PPO)等,组合算法包括演员评论家算法(Actor

Critic,AC)、柔性演员评论家算法(Soft Actor

Critic,SAC)等。
[0005]基于上述技术方法搭建的计算平台,能够在一定程度上模拟和还原基础的鱼类游泳行为,但是,由于其仅仅通过将流场的一些特征参数输入智能鱼的状态空间来进行端到端学习,无法使上述初级计算平台所模拟的智能鱼拥有对当前游泳的流场进行定性识别和分类的能力,而且可能造成算法难以收敛,训练好的游泳策略也无法多个游泳环境之间顺利迁移,这会造成已有计算成果的浪费,而且与真实自然界鱼类的行为模式存在一定出入。
[0006]因此,为解决现有人工智能鱼模拟系统无法对当前所处流场环境进行定性判断,无法选择最适用于当前流场环境的游泳策略,且游泳策略无法很好地在陌生的流场中迁
移,模拟系统泛化能力差、性能不佳的问题,亟需一种更加科学、有效的智能鱼模拟手段,来为研究鱼类利用漩涡游泳等行为学节能机制、开发新型的自航式水下航行器及水利生态行业的数字孪生提供理论和技术支撑。

技术实现思路

[0007]本专利技术的目的是提供一种智能鱼流场模拟控制方法、系统、设备及存储介质,用以解决现有技术中存在的上述问题。
[0008]为了实现上述目的,本专利技术采用以下技术方案:
[0009]第一方面,提供一种智能鱼流场模拟控制方法,包括:
[0010]a.获取当前流场的流速特征参数和压力特征参数,通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;
[0011]b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合;
[0012]c.根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;
[0013]d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息;
[0014]e.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;
[0015]f.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;
[0016]g.根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。
[0017]在一个可能的设计中,在将动作控制指令发送至鱼体游动端后,所述方法还包括:
[0018]h.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;
[0019]i.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;
[0020]j.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;
[0021]k.将训练后的策略价值估算模型更新为当前的策略价值估算模型,并重复步骤d至步骤j,形成闭环控制。
[0022]在一个可能的设计中,所述摆尾频率集合包含若干摆尾频率[ω1,ω2,ω3...ω
n
],所述动作迁移系统的动作空间为[a
accelerate
,a
cruise
,a
decelerate
],其中,a
accelerate
表征加速动作方式,a
cruise
表征巡航动作方式,a
decelerate
表征减速动作方式。
[0023]在一个可能的设计中,所述第一状态信息包括当前的游动摆尾频率ω
t
,在ω
t
=ω
max
时,所述动作迁移系统的动作空间为[0,a
cruise
,a
decelerate
],在ω
t
=ω
min
时,所述动作迁移系统的动作空间为[a
accelerate
,a
cruise
,0],其中,ω
max
为[ω1,ω2,ω3...ω...

【技术保护点】

【技术特征摘要】
1.一种智能鱼流场模拟控制方法,其特征在于,包括:a.获取当前流场的流速特征参数和压力特征参数,通过预置流场识别系统对当前流场的流速特征参数和压力特征参数进行识别,确定当前流场的流场类型;b.根据当前流场的流场类型从动作记忆系统数据库中选取相应的摆尾频率集合;c.根据摆尾频率集合确定预置动作迁移系统的动作空间,所述动作空间包含若干动作方式;d.获取流场生境端当前时刻反馈的第一状态信息和第一奖励信息;e.将第一状态信息、第一奖励信息及动作空间导入当前的策略价值估算模型中,计算输出各动作方式的估计策略价值,并根据各动作方式的估计策略价值确定动作空间中各动作方式的概率参数信息;f.根据动作空间中各动作方式的概率参数信息确定动作空间中各动作方式的概率分布情况,并根据动作空间中各动作方式的概率分布情况随机选取其中一动作方式作为目标动作方式;g.根据目标动作方式生成相应的动作控制指令,并将动作控制指令发送至鱼体游动端。2.根据权利要求1所述的一种智能鱼流场模拟控制方法,其特征在于,在将动作控制指令发送至鱼体游动端后,所述方法还包括:h.获取流场生境端下一时刻反馈的第二状态信息和第二奖励信息;i.利用第一状态信息、目标动作方式、第二状态信息和第二奖励信息组成相应的四元组经验样本记录存储到动作记忆系统数据库中;j.从动作记忆系统数据库中提取若干连续记录的四元组经验样本对策略价值估算模型进行训练,得到训练后的策略价值估算模型;k.将训练后的策略价值估算模型更新为当前的策略价值估算模型,并重复步骤d至步骤j,形成闭环控制。3.根据权利要求2所述的一种智能鱼流场模拟控制方法,其特征在于,所述摆尾频率集合包含若干摆尾频率[ω1,ω2,ω3...ω
n
],所述动作迁移系统的动作空间为[a
accelerate
,a
cruise
,a
decelerate
],其中,a
accelerate
表征加速动作方式,a
cruise
表征巡航动作方式,a
decelerate
表征减速动作方式。4.根据权利要求3所述的一种智能鱼流场模拟控制方法,其特征在于,所述第一状态信息包括当前的游动摆尾频率ω
t
,在ω
t
=ω
max
时,所述动作迁移系统的动作空间为[0,a
cruise
,a
decelerate
],在ω
t
=ω
min
时,所述动作迁移系统的动作空间为[a
accelerate
,a
cruise
,0],其中,ω
max
为[ω1,ω2,ω3...ω
n
]中的最大摆尾频率,ω
min
为[ω1,ω2,ω3...ω
n<...

【专利技术属性】
技术研发人员:张春泽李涛侯极张湛彭培艺马倩周勤米家杉谢灵运
申请(专利权)人:重庆西科水运工程咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1