基于深度强化学习的管道气动软体机器人控制方法和系统技术方案

技术编号：44555784 阅读：25 留言：0更新日期：2025-03-11 14:17

本发明专利技术涉及一种基于深度强化学习的管道气动软体机器人控制方法和系统，其中，方法包括：通过改进的DDPG算法来控制管道气动软体机器人中轴向致动器的运动，实现对管道气动软体机器人的控制，具体为：改进的DDPG算法为在DDPG算法中引入预测奖励学习方法；通过所述DDPG算法得到第一奖励；通过所述预测奖励学习方法得到第二奖励；将第一奖励和与第二奖励进行结合，得到用于指导轴向致动器执行动作的策略函数；轴向致动器根据所述策略函数执行动作，以实现对管道气动软体机器人的控制。本发明专利技术有效提高了管道气动软体机器人的连续运动控制性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及管道气动软体机器人控制，尤其是指一种基于深度强化学习的管道气动软体机器人控制方法和系统。

技术介绍

1、在设计机器人控制器时，可分为有模型控制策略和无模型控制策略。

2、基于模型的控制方法可提高控制系统整体的可预测性和适应性。可使用分段常曲率(pcc)假设建立模型，该假设依赖于机器人的每个部分沿圆周弧形变形且假设没有重力，通常适用于超冗余或刚性连续机器人。与已被广泛研究多年、具有精确解析运动学的传统刚性机器人不同，软体机器人多由连续可变形的材料或机构组成，具有较多自由度与高度顺应性，pcc假设并不适用于软体机器人的精准控制。而基于有限元的模型不需要像pcc那样依赖如此严格的假设，并且已被证明适用于对非线性软材料及其与环境的相互作用进行建模。wu等提出了一种基于有限元的非线性控制器，用于由电缆驱动的软体机器人，在模型中考虑了机器人的滞后和摩擦，并实现了良好的扰动抑制。但巨大的计算成本使上述有限元模型无法使用于实时闭合控制回路中。

3、因此，软体机器人会因内外因素产生建模不确定性，如由于驱动、材料弹性和...

【技术保护点】

1.一种基于深度强化学习的管道气动软体机器人控制方法，其特征在于：包括：

2.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：所述将所述DDPG算法对应的第一奖励和与所述预测奖励学习方法对应的第二奖励进行结合，得到用于指导轴向致动器执行动作的策略函数，公式为：

3.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：

4.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：将所述前向模型神经网络记为其由一个参数为φ的前馈神经网络构造得到，设输入为当前状态si和当前动作ai...

【技术特征摘要】

1.一种基于深度强化学习的管道气动软体机器人控制方法，其特征在于：包括：

2.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：所述将所述ddpg算法对应的第一奖励和与所述预测奖励学习方法对应的第二奖励进行结合，得到用于指导轴向致动器执行动作的策略函数，公式为：

3.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：

4.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：将所述前向模型神经网络记为其由一个参数为φ的前馈神经网络构造得到，设输入为当前状态si和当前动作ai，下一时刻状态为输出，构造前向模型神经网络的损失函数，公式为：

5.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：将所述奖励神经网络记为其由一个参数为的前馈神经网络构建得到，设输入为当前状态si，奖励为输出，构造奖励神经网络的损失函数，公式为：

6.根据权利要求1所述的基于深度强化学习的管道气动软体机器人控制方法，其特征在于：以轴向致动器的轴线为曲线模型进行动力学分析，设标准正交基{e1，e2，e3}为轴线的全局坐标系，u(s,t)为惯性系轴线位置向量，其中s表示弧长且s∈[0，l]，l为轴向致动器的长度，轴线的局部坐标系为q＝{d1(s)，...

【专利技术属性】
技术研发人员：朱其新，江雨霏，金建锋，刘红俐，谢鸥，王泽林，
申请(专利权)人：苏州科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人