机器鱼的控制方法、装置、设备及存储介质制造方法及图纸

技术编号:24251947 阅读:30 留言:0更新日期:2020-05-22 23:47
本申请公开了一种机器鱼的控制方法、装置、设备及存储介质,所述方法包括:基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数;根据所述两个关节的状态参数控制机器鱼两个关节的运动。本申请提供的机器鱼的控制方法、装置、设备及存储介质,可以实现机器鱼在不同状态下的自适应、自调整,将自己关节适应流体的变化,适时地做一些负功来提升自己的效率,最终训练的结果使得在融合DDPG的情况下比开环时效率提高了30%‑40%。

Control method, device, equipment and storage medium of robotic fish

【技术实现步骤摘要】
机器鱼的控制方法、装置、设备及存储介质
本申请涉及机器鱼领域,特别涉及一种机器鱼的控制方法、装置、设备及存储介质。
技术介绍
在自然界中,鱼类通过身体和/或尾鳍的摆动,获得快速高效的游动性能和极高的机动性,这些独特的游动性能吸引了越来越多的科研工作者。近年来,研究人员逐渐从流体力学等方面揭示鱼类高效游动的机理,但是,基于生物原型的仿生机器鱼不论在游动速度、推进效率还是在转弯机动性上均远远落后于自然界中的鱼类。随着仿生机器鱼的问世,一代又一代的机器鱼样机产生,但是都避免不了一个核心的问题:效率低下。对比一下现有的机器鱼和生物鱼的推进效率明显可以看出他们相差甚远,生物鱼的推进效率高达90%,而机器鱼由于模仿流体的参数、试验条件等不同,得到的推进效率也不尽相同,但是最高也不会超过30-40%,所以即使将机器鱼做的小且精,但是解决不了效率的问题,机器鱼仍然是无法投入使用。
技术实现思路
本申请的目的在于提供一种机器鱼的控制方法及装置,本专利技术旨在提高机器鱼的能源利用率问题,使电池续航时间更久,机动性更好,对环境的扰动小。第一方面,本申请实施例提供了一种机器鱼的控制方法,包括:基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数;根据所述两个关节的状态参数控制机器鱼两个关节的运动。在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述深度确定性策略梯度网络包括策略网络和评价网络;所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块;所述评价网络包括第二动作状态估计模块、第二动作状态现实模块、和损失函数模块。在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述第一动作状态估计模块连接第二动作状态估计模块、策略梯度模块,并且所述第一动作状态估计模块输出所述状态参数,并接收奖励值;所述第一动作状态现实模块连接第二动作状态现实模块,并且所述第一动作状态现实模块接收所述奖励值;所述策略梯度模块连接所述第一动作状态估计模块、第二动作状态估计模块;所述第二动作状态估计模块连接所述第一动作状态估计模块、策略梯度模块和损失函数模块,并接收奖励值;所述第二动作状态现实模块连接所述第一动作状态现实模块、损失函数模块,并接收奖励值;所述损失函数模块连接第二动作状态现实模块和第二动作状态估计模块。在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述奖励值的计算过程如下:利用拉格朗日方程建立动力学模型,根据所述状态参数计算所述机器鱼的效率值,将所述效率值作为奖励值。在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述策略网络和评价网络分别为三层网络,策略网络和评价网络的参数选择相同,第一层是300个神经元,第二层是100个神经元,最后一层是要输出的维度;其中,策略网络包括两个输出作为两个刚度值;评价网络包括一个输出作为q值。在一种可能的实现方式中,在本申请实施例提供的上述方法中,所述基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数,包括:S1、利用拉格朗日方程构建机器鱼的动力学模型的环境,并构建DDPG网络;S2、重置环境得到起始需要的两个关节的状态参数;S3、将所述状态参数送到DDPG网络中,由策略模块产生两个关节所需要的刚度值;S4、将DDPG网络产生的刚度值送回到所述模型的环境中,解算出由此动作产生的机器鱼下一个状态的各个状态值、奖励值、完成值;S5、将当前各个状态的状态值、DDPG产生的动作值、奖励值以及下一个状态的各个状态值存储到DDPG的记忆库中;S6、判断记忆库是否已满,如果是则进入步骤S7,如果否则进入步骤S8;S7、DDPG从记忆库中随机抽取固定数量的记忆来学习;S8、判断完成值是否为1或达到一个回合最大,如果是则返回步骤S2,如果否则返回步骤S3。第二方面,本申请实施例提供了一种机器鱼的控制装置,包括:DDPG模块,基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数;控制模块,根据所述两个关节的状态参数控制机器鱼两个关节的运动。在一种可能的实现方式中,所述深度确定性策略梯度网络包括策略网络和评价网络;所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块;所述评价网络包括第二动作状态估计模块、第二动作状态现实模块、和损失函数模块。第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;所述存储器,用于存储计算机程序;其中,所述处理器执行所述存储器中的计算机程序,以实现上述第一方面以及第一方面的各个实施方式中所述的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述第一方面以及第一方面的各个实施方式中所述的方法。与现有技术相比,本申请提供的机器鱼的控制方法、装置、设备及存储介质,可以实现机器鱼在不同状态下的自适应、自调整,将自己关节适应流体的变化,适时地做一些负功来提升自己的效率,最终训练的结果使得在融合DDPG的情况下比开环时效率提高了30%-40%。附图说明图1为本申请实施例一提供的机器鱼的控制方法的流程示意图;图2为本申请实施例一提供的DDPG网络的结构示意图;图3为本申请实施例提供的两关节机器鱼的模型示意图;图4为本申请实施例提供的训练DDPG网络的流程示意图;图5为本申请实施例二提供的机器鱼的控制装置的结构示意图;图6为本申请实施例三提供的电子设备的结构示意图。具体实施方式下面结合附图,对本申请的具体实施方式进行详细描述,但应当理解本申请的保护范围并不受具体实施方式的限制。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。本专利技术中使用的概念内涵如下:强化学习:强化学习需要有环境、奖励函数、动作和状态这些要素。强化学习针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励值最大。而这里的策略就是针对不同状态响应出不同的动作。强化学习要先从要完成的任务提取一个环境,从中抽象出状态、动作、以及执行该动作所接受的瞬时奖赏。经典控制理论——PID控制:根据给定信号和实际信号的偏差进行调节,有比例、微分、积分控制。通过对误差信号的这三种的调节达到跟随的效果。本专利技术描述了一个机器鱼提高效率的方法:使用深度确定性策略梯度算法(DeepDeterministicPolicyGradient,以下简称DDPG),变刚度可做负功。该方法可以使机器鱼自适应不同状态下的流体,并有效提高机器鱼游动的效率。图1为本申请实施例一提供的机器鱼的控制方法的流程示意图,如图1所示,该控制方法包括:S101、基于深度确定性策略梯度网络训练两本文档来自技高网...

【技术保护点】
1.一种机器鱼的控制方法,其特征在于,包括:/n基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数;/n根据所述两个关节的状态参数控制机器鱼两个关节的运动。/n

【技术特征摘要】
1.一种机器鱼的控制方法,其特征在于,包括:
基于深度确定性策略梯度网络训练两关节机器鱼的两个关节的状态参数;
根据所述两个关节的状态参数控制机器鱼两个关节的运动。


2.根据权利要求1所述的方法,其特征在于,
所述深度确定性策略梯度网络包括策略网络和评价网络;
所述策略网络包括第一动作状态估计模块、第一动作状态现实模块、和策略梯度模块;
所述评价网络包括第二动作状态估计模块、第二动作状态现实模块、和损失函数模块。


3.根据权利要求2所述的方法,其特征在于,
所述第一动作状态估计模块连接第二动作状态估计模块、策略梯度模块,并且所述第一动作状态估计模块输出所述状态参数,并接收奖励值;
所述第一动作状态现实模块连接第二动作状态现实模块,并且所述第一动作状态现实模块接收所述奖励值;
所述策略梯度模块连接所述第一动作状态估计模块、第二动作状态估计模块;
所述第二动作状态估计模块连接所述第一动作状态估计模块、策略梯度模块和损失函数模块,并接收奖励值;
所述第二动作状态现实模块连接所述第一动作状态现实模块、损失函数模块,并接收奖励值;
所述损失函数模块连接第二动作状态现实模块和第二动作状态估计模块。


4.根据权利要求3所述的方法,其特征在于,
所述奖励值的计算过程如下:
利用拉格朗日方程建立动力学模型,根据所述状态参数计算所述机器鱼的效率值,将所述效率值作为奖励值。


5.根据权利要求2-4任意一项所述的方法,其特征在于,
所述策略网络和评价网络分别为三层网络,策略网络和评价网络的参数选择相同,第一层是300个神经元,第二层是100个神经元,最后一层是要输出的维度;其中,策略网络包括两个输出作为两个刚度值;评价网络包括一个输出作为q值。


6.根据权利要求1-5任意一项所述的方法,其特征在...

【专利技术属性】
技术研发人员:徐东胡存佚魏洪兴张元林李莉张秀磊
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1