水下机器人运动控制方法、装置、系统、设备和存储介质制造方法及图纸

技术编号：36913191 阅读：55 留言：0更新日期：2023-03-18 09:31

本发明专利技术涉及机器人技术领域，提供一种水下机器人运动控制方法、装置、系统、设备和存储介质，其中方法包括：获取待控制的水下机器人的当前运动状态和任务目标；将当前运动状态和任务目标输入至反馈控制器，得到反馈控制器输出的第一控制动作；将当前运动状态和任务目标输入至残差控制器，得到残差控制器输出的第二控制动作，残差控制器是基于强化学习方法在仿真环境中训练得到的，仿真环境基于周期性参数随机化策略调整；基于第一控制动作和第二控制动作，对水下机器人进行运动控制。本发明专利技术实施例提供的水下机器人运动控制方法、装置、系统、设备和存储介质，实现在扰动情况下对水下机器人进行高效、精准的运动控制。精准的运动控制。精准的运动控制。

全部详细技术资料下载

【技术实现步骤摘要】
水下机器人运动控制方法、装置、系统、设备和存储介质

[0001]本专利技术涉及机器人
，尤其涉及一种水下机器人运动控制方法、装置、系统、设备和存储介质。

技术介绍

[0002]目前，各式仿生水下机器人已被广泛应用在海洋和军事等领域，例如海洋生物观察、水下资源勘探、海上军事打击等。与传统螺旋桨推进的水下航行器相比，仿生水下机器人在机动性、稳定性、抗干扰能力、噪声等方面具有更大的优势，仿生水下机器人及其运动控制方法逐渐受到研究人员和工程师的关注。
[0003]现有大多数运动控制方法都是基于数学模型或自适应的方法来实现对不确定系统的控制。其中，基于模型的控制方法往往对机器人运动模型精度有较高的要求，但是由于仿生水下机器人的流体动力学复杂且不确定，同时水下存在的扰流难以模拟，因此很难为机器人建立精确的数学模型。另一方面，虽然自适应的控制方法不需基于精确的数学模型，但要求丰富的调试参数经验，同时面对较大的环境扰动时，调节范围有限。
[0004]强化学习作为目前应用较广的一种学习算法，不用基于精确的模型，通过机器人与环境交互来优化控制策略，实现对机器人的运动控制，具有良好的环境适应性。但在实际应用时仍存在较多问题与挑战，容易出现学习时间过长、虚实迁移后控制效果降低、收敛困难等问题。

技术实现思路

[0005]本专利技术提供一种水下机器人运动控制方法、装置、系统、设备和存储介质，用以解决现有技术中要求丰富的调试参数经验，并且调节范围有限，同时容易出现学习时间过长、虚实迁移后控制效果降低、收敛困...

【技术保护点】

【技术特征摘要】
1.一种水下机器人运动控制方法，其特征在于，包括：获取待控制的水下机器人的当前运动状态和任务目标；将所述当前运动状态和任务目标输入至反馈控制器，得到所述反馈控制器输出的第一控制动作；将所述当前运动状态和任务目标输入至残差控制器，得到所述残差控制器输出的第二控制动作，所述残差控制器是基于强化学习方法在仿真环境中训练得到的，所述仿真环境基于周期性参数随机化策略调整；基于所述第一控制动作和第二控制动作，对所述水下机器人进行运动控制。2.根据权利要求1所述的水下机器人运动控制方法，其特征在于，所述基于所述第一控制动作和第二控制动作，对所述水下机器人进行运动控制，包括：对所述第一控制动作和第二控制动作进行加权叠加，得到叠加控制动作；将所述叠加控制动作输入至驱动控制模型，对所述水下机器人进行运动控制。3.根据权利要求1所述的水下机器人运动控制方法，其特征在于，所述残差控制器基于如下步骤训练得到：构建所述水下机器人的仿真环境；基于反馈控制器和初始残差模型，以及所述仿真环境，得到所述水下机器人的多组历史状态数据，每一组历史状态数据包括当前时间步状态、当前时间步控制动作、当前时间步奖励和下一时间步状态，所述仿真环境基于周期性参数随机化策略调整；基于所述多组历史状态数据，对所述初始残差模型进行训练，得到所述残差控制器。4.根据权利要求3所述的水下机器人运动控制方法，其特征在于，所述仿真环境基于如下公式进行参数随机化策略调整：；其中，表示仿真环境的初始参数；表示参数随机化范围；为随机化函数，用于生成0到1之间的随机数；表示仿真环境的参数，表示仿真环境的参数集合。5.根据权利要求3所述的水下机器人运动控制方法，其特征在于，所述构建所述水下机器人的仿真环境，包括：确定所述水下机器人的任务目标和约束条件；构建所述水下机器人的运动学模型；基于所述运动学模型，构建所述水下机器人的动力学模型和驱动控制模型；基于所述任务目标和约束条件、所述动力学模型和驱动控制模型，构建所述水下机器人的仿真环境。6.根据权利要求1
‑

【专利技术属性】
技术研发人员：王睿，张天栋，王宇，王硕，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人