机器鱼的控制方法、装置、设备及存储介质制造方法及图纸

技术编号：24251947 阅读：30 留言：0更新日期：2020-05-22 23:47

本申请公开了一种机器鱼的控制方法、装置、设备及存储介质，所述方法包括：基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数；根据所述两个关节的状态参数控制机器鱼两个关节的运动。本申请提供的机器鱼的控制方法、装置、设备及存储介质，可以实现机器鱼在不同状态下的自适应、自调整，将自己关节适应流体的变化，适时地做一些负功来提升自己的效率，最终训练的结果使得在融合DDPG的情况下比开环时效率提高了30％‑40％。

Control method, device, equipment and storage medium of robotic fish

全部详细技术资料下载

【技术实现步骤摘要】
机器鱼的控制方法、装置、设备及存储介质
本申请涉及机器鱼领域，特别涉及一种机器鱼的控制方法、装置、设备及存储介质。
技术介绍
在自然界中，鱼类通过身体和/或尾鳍的摆动，获得快速高效的游动性能和极高的机动性，这些独特的游动性能吸引了越来越多的科研工作者。近年来，研究人员逐渐从流体力学等方面揭示鱼类高效游动的机理，但是，基于生物原型的仿生机器鱼不论在游动速度、推进效率还是在转弯机动性上均远远落后于自然界中的鱼类。随着仿生机器鱼的问世，一代又一代的机器鱼样机产生，但是都避免不了一个核心的问题：效率低下。对比一下现有的机器鱼和生物鱼的推进效率明显可以看出他们相差甚远，生物鱼的推进效率高达90％，而机器鱼由于模仿流体的参数、试验条件等不同，得到的推进效率也不尽相同，但是最高也不会超过30-40％，所以即使将机器鱼做的小且精，但是解决不了效率的问题，机器鱼仍然是无法投入使用。
技术实现思路
本申请的目的在于提供一种机器鱼的控制方法及装置，本专利技术旨在提高机器鱼的能源利用率问题，使电池续航时间更久，机动性更好，对环境的扰动小。第一方面，本申请实施例提供了一种机器鱼的控制方法，包括：基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数；根据所述两个关节的状态参数控制机器鱼两个关节的运动。在一种可能的实现方式中，在本申请实施例提供的上述方法中，所述深度确定性策略梯度网络包括策略网络和评价网络；所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块；所述评价网络...

【技术保护点】
1.一种机器鱼的控制方法，其特征在于，包括：/n基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数；/n根据所述两个关节的状态参数控制机器鱼两个关节的运动。/n

【技术特征摘要】
1.一种机器鱼的控制方法，其特征在于，包括：
基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数；
根据所述两个关节的状态参数控制机器鱼两个关节的运动。

2.根据权利要求1所述的方法，其特征在于，
所述深度确定性策略梯度网络包括策略网络和评价网络；
所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块；
所述评价网络包括第二动作状态估计模块、第二动作状态现实模块、和损失函数模块。

3.根据权利要求2所述的方法，其特征在于，
所述第一动作状态估计模块连接第二动作状态估计模块、策略梯度模块，并且所述第一动作状态估计模块输出所述状态参数，并接收奖励值；
所述第一动作状态现实模块连接第二动作状态现实模块，并且所述第一动作状态现实模块接收所述奖励值；
所述策略梯度模块连接所述第一动作状态估计模块、第二动作状态估计模块；
所述第二动作状态估计模块连接所述第一动作状态估计模块、策略梯度模块和损失函数模块，并接收奖励值；
所述第二动作状态现实模块连接所述第一动作状态现实模块、损失函数模块，并接收奖励值；
所述损失函数模块连接第二动作状态现实模块和第二动作状态估计模块。

4.根据权利要求3所述的方法，其特征在于，
所述奖励值的计算过程如下：
利用拉格朗日方程建立动力学模型，根据所述状态参数计算所述机器鱼的效率值，将所述效率值作为奖励值。

5.根据权利要求2-4任意一项所述的方法，其特征在于，
所述策略网络和评价网络分别为三层网络，策略网络和评价网络的参数选择相同，第一层是300个神经元，第二层是100个神经元，最后一层是要输出的维度；其中，策略网络包括两个输出作为两个刚度值；评价网络包括一个输出作为q值。

6.根据权利要求1-5任意一项所述的方法，其特征在...

【专利技术属性】
技术研发人员：徐东，胡存佚，魏洪兴，张元林，李莉，张秀磊，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人