水下机器人运动控制方法、装置、系统、设备和存储介质制造方法及图纸

技术编号:36913191 阅读:51 留言:0更新日期:2023-03-18 09:31
本发明专利技术涉及机器人技术领域,提供一种水下机器人运动控制方法、装置、系统、设备和存储介质,其中方法包括:获取待控制的水下机器人的当前运动状态和任务目标;将当前运动状态和任务目标输入至反馈控制器,得到反馈控制器输出的第一控制动作;将当前运动状态和任务目标输入至残差控制器,得到残差控制器输出的第二控制动作,残差控制器是基于强化学习方法在仿真环境中训练得到的,仿真环境基于周期性参数随机化策略调整;基于第一控制动作和第二控制动作,对水下机器人进行运动控制。本发明专利技术实施例提供的水下机器人运动控制方法、装置、系统、设备和存储介质,实现在扰动情况下对水下机器人进行高效、精准的运动控制。精准的运动控制。精准的运动控制。

【技术实现步骤摘要】
水下机器人运动控制方法、装置、系统、设备和存储介质


[0001]本专利技术涉及机器人
,尤其涉及一种水下机器人运动控制方法、装置、系统、设备和存储介质。

技术介绍

[0002]目前,各式仿生水下机器人已被广泛应用在海洋和军事等领域,例如海洋生物观察、水下资源勘探、海上军事打击等。与传统螺旋桨推进的水下航行器相比,仿生水下机器人在机动性、稳定性、抗干扰能力、噪声等方面具有更大的优势,仿生水下机器人及其运动控制方法逐渐受到研究人员和工程师的关注。
[0003]现有大多数运动控制方法都是基于数学模型或自适应的方法来实现对不确定系统的控制。其中,基于模型的控制方法往往对机器人运动模型精度有较高的要求,但是由于仿生水下机器人的流体动力学复杂且不确定,同时水下存在的扰流难以模拟,因此很难为机器人建立精确的数学模型。另一方面,虽然自适应的控制方法不需基于精确的数学模型,但要求丰富的调试参数经验,同时面对较大的环境扰动时,调节范围有限。
[0004]强化学习作为目前应用较广的一种学习算法,不用基于精确的模型,通过机器人与环境交互来优化控制策略,实现对机器人的运动控制,具有良好的环境适应性。但在实际应用时仍存在较多问题与挑战,容易出现学习时间过长、虚实迁移后控制效果降低、收敛困难等问题。

技术实现思路

[0005]本专利技术提供一种水下机器人运动控制方法、装置、系统、设备和存储介质,用以解决现有技术中要求丰富的调试参数经验,并且调节范围有限,同时容易出现学习时间过长、虚实迁移后控制效果降低、收敛困难的缺陷。
[0006]本专利技术提供一种水下机器人运动控制方法,包括:获取待控制的水下机器人的当前运动状态和任务目标;将所述当前运动状态和任务目标输入至反馈控制器,得到所述反馈控制器输出的第一控制动作;将所述当前运动状态和任务目标输入至残差控制器,得到所述残差控制器输出的第二控制动作,所述残差控制器是基于强化学习方法在仿真环境中训练得到的,所述仿真环境基于周期性参数随机化策略调整;基于所述第一控制动作和第二控制动作,对所述水下机器人进行运动控制。
[0007]根据本专利技术提供的水下机器人运动控制方法,所述基于所述第一控制动作和第二控制动作,对所述水下机器人进行运动控制,包括:对所述第一控制动作和第二控制动作进行加权叠加,得到叠加控制动作;将所述叠加控制动作输入至驱动控制模型,对所述水下机器人进行运动控制。
[0008]根据本专利技术提供的水下机器人运动控制方法,所述残差控制器基于如下步骤训练
得到:构建所述水下机器人的仿真环境;基于反馈控制器和初始残差模型,以及所述仿真环境,得到所述水下机器人的多组历史状态数据,每一组历史状态数据包括当前时间步状态、当前时间步控制动作、当前时间步奖励和下一时间步状态,所述仿真环境基于周期性参数随机化策略调整;基于所述多组历史状态数据,对所述初始残差模型进行训练,得到所述残差控制器。
[0009]根据本专利技术提供的水下机器人运动控制方法,所述仿真环境基于如下公式进行参数随机化策略调整:;其中,表示仿真环境的初始参数;表示参数随机化范围;为随机化函数,用于生成0到1之间的随机数;表示仿真环境的参数,表示仿真环境的参数集合。
[0010]根据本专利技术提供的水下机器人运动控制方法,所述构建所述水下机器人的仿真环境,包括:确定所述水下机器人的任务目标和约束条件;构建所述水下机器人的运动学模型;基于所述运动学模型,构建所述水下机器人的动力学模型和驱动控制模型;基于所述任务目标和约束条件、所述动力学模型和驱动控制模型,构建所述水下机器人的仿真环境。
[0011]根据本专利技术提供的水下机器人运动控制方法,所述反馈控制器包括自抗扰控制模块和参数映射模块,所述将所述当前运动状态和任务目标输入至反馈控制器,得到所述反馈控制器输出的第一控制动作,包括:将所述当前状态和任务目标输入至反馈控制器中的自抗扰控制模块,得到所述自抗扰控制模块输出的偏转力矩;将所述偏转力矩输入至反馈控制器中的参数映射模块,得到所述参数映射模块输出的所述第一控制动作。
[0012]本专利技术还提供一种水下机器人运动控制装置,包括:状态获取单元,用于获取待控制的水下机器人的当前运动状态和任务目标;第一动作获取单元,用于将所述当前运动状态和任务目标输入至反馈控制器,得到所述反馈控制器输出的第一控制动作;第二动作获取单元,用于将所述当前运动状态和任务目标输入至残差控制器,得到所述残差控制器输出的第二控制动作,所述残差控制器是基于强化学习方法在仿真环境中训练得到的,所述仿真环境基于周期性参数随机化策略调整;运动控制单元,用于基于所述第一控制动作和第二控制动作,对所述水下机器人进行运动控制。
[0013]本专利技术还提供一种水下机器人运动控制系统,包括:如上所述的水下机器人运动控制装置,水下机器人和状态反馈模块;所述水下机器人运动控制装置用于接收所述状态反馈模块发送的当前状态,并对所述水下机器人进行运动控制;
所述状态反馈模块包括航姿参考子模块和状态转换子模块,所述航姿参考子模块与所述水下机器人连接,用于获取所述水下机器人的实时位姿,所述状态转换子模块用于对所述实时位姿进行状态转换,并将状态转换后得到的当前状态发送至所述水下机器人运动控制装置。
[0014]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述水下机器人运动控制方法。
[0015]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述水下机器人运动控制方法。
[0016]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述水下机器人运动控制方法。
[0017]本专利技术提供的水下机器人运动控制方法、装置、系统、设备和存储介质,基于反馈控制器输出的第一控制动作,和残差控制器输出的第二控制动作,对水下机器人进行运动控制,该方法避免了对运动模型精度要求较高、学习时间过长、虚实迁移后控制效果降低、收敛困难等问题,实现了水下机器人高效、精准的运动控制。
[0018]此外,残差控制器是基于强化学习方法在仿真环境中训练得到的,仿真环境基于周期性参数随机化策略调整,参数随机化策略避免了需要丰富的调试参数经验的限制,即使在面对较大的环境扰动时,也可实现高效、精准的运动控制,提高了水下机器人针对复杂环境的运动控制能力。
附图说明
[0019]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术提供的水下机器人运动控制方法的流程示意图;图2是本专利技术提供的初始残差模型的结构示意图;图3是本专利技术提供的残差控制器训练方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水下机器人运动控制方法,其特征在于,包括:获取待控制的水下机器人的当前运动状态和任务目标;将所述当前运动状态和任务目标输入至反馈控制器,得到所述反馈控制器输出的第一控制动作;将所述当前运动状态和任务目标输入至残差控制器,得到所述残差控制器输出的第二控制动作,所述残差控制器是基于强化学习方法在仿真环境中训练得到的,所述仿真环境基于周期性参数随机化策略调整;基于所述第一控制动作和第二控制动作,对所述水下机器人进行运动控制。2.根据权利要求1所述的水下机器人运动控制方法,其特征在于,所述基于所述第一控制动作和第二控制动作,对所述水下机器人进行运动控制,包括:对所述第一控制动作和第二控制动作进行加权叠加,得到叠加控制动作;将所述叠加控制动作输入至驱动控制模型,对所述水下机器人进行运动控制。3.根据权利要求1所述的水下机器人运动控制方法,其特征在于,所述残差控制器基于如下步骤训练得到:构建所述水下机器人的仿真环境;基于反馈控制器和初始残差模型,以及所述仿真环境,得到所述水下机器人的多组历史状态数据,每一组历史状态数据包括当前时间步状态、当前时间步控制动作、当前时间步奖励和下一时间步状态,所述仿真环境基于周期性参数随机化策略调整;基于所述多组历史状态数据,对所述初始残差模型进行训练,得到所述残差控制器。4.根据权利要求3所述的水下机器人运动控制方法,其特征在于,所述仿真环境基于如下公式进行参数随机化策略调整:;其中,表示仿真环境的初始参数;表示参数随机化范围;为随机化函数,用于生成0到1之间的随机数;表示仿真环境的参数,表示仿真环境的参数集合。5.根据权利要求3所述的水下机器人运动控制方法,其特征在于,所述构建所述水下机器人的仿真环境,包括:确定所述水下机器人的任务目标和约束条件;构建所述水下机器人的运动学模型;基于所述运动学模型,构建所述水下机器人的动力学模型和驱动控制模型;基于所述任务目标和约束条件、所述动力学模型和驱动控制模型,构建所述水下机器人的仿真环境。6.根据权利要求1

【专利技术属性】
技术研发人员:王睿张天栋王宇王硕
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1