当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法技术

技术编号:20159607 阅读:14 留言:0更新日期:2019-01-19 00:12
本发明专利技术公开了一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法,属于水下机器人控制领域。本发明专利技术中控制中心给出水下机器人的期望轨迹信息,并发送至水下机器人;根据水下机器人模型中不确定参数的概率密度函数,分别对其选取采样点,利用采样点对原始的动力学模型降阶;水下机器人和周围环境进行交互以学习环境信息,在不同状态计算一步代价函数进行价值更新,用最小二乘法求解控制策略对应的价值函数的权重,用梯度下降法进行控制策略改进,循环迭代价值更新和策略改进两个过程直至收敛,从而得到当前位置追踪期望轨迹的最优控制策略;重复以上步骤得到对其余期望轨迹追踪的最优控制策略,最终完成追踪任务。

【技术实现步骤摘要】
一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法
本专利技术涉及水下机器人控制领域,具体涉及一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法。
技术介绍
随着海洋资源的应用越来越广泛,水下机器人也受到了人们更多的重视。水下机器人在海洋中的一个重要应用就是位置追踪,但水下环境复杂多变,使得水下机器人的模型参数很难获取,控制难度大。在现有技术中检索发现,公开号为CN106708069A的专利申请设计了一种水下移动作业机器人的协调规划与控制方法。该方法包括通过动态追踪微分器,实时规划当前期望的速度与状态,用迭代任务优先方法将笛卡尔空间的任务规划转化到随体坐标系和各关节坐标系的速度与加速度规划,根据速度与加速度规划,利用动力学方法来控制水下机器人和作业臂,从而使得水下移动作业机器人进行巡游与作业。但此专利技术没有考虑到水下环境中的不确定性对水下机器人的影响,在海洋环境中,水下机器人在运行中会受到各种干扰,如浪涌、摇摆和升沉的作用力的影响,如果不将这些不确定的因素考虑到算法之中,在实际运行中会达不到理想的效果。再有,公开号为CN107544256A的专利申请设计了基于自适应反步法的水下机器人滑模控制,本专利技术提供一种基于自适应反步法的水下机器人滑模控制方法。该方法基于对复杂非线性系统的分解,通过为子系统设计虚拟控制量,结合滑动模态逐级递推得到全系统的控制量,针对系统不确定上界引起的抖振问题,控制器中引入径向基函数神经网络,自适应逼近系统内部不确定性与外部干扰,最终实现对系统抖振的控制,并实现高精度跟踪控制,提高闭环系统鲁棒性,满足工程需求。该专利技术中所提出的内部不确定性与外部干扰是确定参数,但在实际工作环境中,在考虑会对水下机器人造成干扰的参数时,应将参数设置为时变不确定参数。
技术实现思路
本专利技术的目的在于克服上述不足,提出一种基于强化学习的水下机器人控制方法,在准确追踪目标轨迹的同时减少对具有不确定参数系统的采样次数,利用水下机器人对环境的学习实现控制。为实现上述目的,本专利技术采用下述技术方案:一种基于强化学习的水下机器人控制方法,其特征在于,包括以下步骤:步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系,以及建立基于水下环境不确定因素的惯性参考系;步骤2、对于惯性参考系,在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型:式中,ai是水下机器人受到的第i个不确定因素,为系数,每个不确定因素ai都遵循独立的概率密度函数根据不确定因素各自的概率密度函数,为每个不确定因素定点采样,利用采样点对系统映射机器人输出模型进行训练,构建降阶系统映射机器人输出模型:式中,是低阶映射中不确定因素的系数;步骤3、将水下机器人真实位置转化为步骤1的固定参考系中的坐标,并获取步骤2惯性参考系中的机器人降阶系统映射的模型输出;步骤4、定义水下机器人在不同的状态k下的真实位置为:p(k)=[x(k),y(k),z(k)]T定义水下机器人在不同的状态k下的期望轨迹位置为:pr(k)=[xr(k),yr(k),zr(k)]T定义水下机器人在不同状态k下的下一步动作的一步代价函数为gk(p,u)=(x(k)-xr(k))2+(y(k)-yr(k))2+(z(k)-zr(k))2+u2(k)其中(x-xr)2+(y-yr)2+(z-zr)2代表水下机器人位置误差的代价,u是水下机器人控制器输入,u2代表消耗能量的代价;根据水下机器人位置移动产生的一步代价函数对机器人进行训练,获得价值函数V(p(k))=Ea(k){gk(p,u)+γV(p(k+1))}式中,γ∈(0,1)是折扣因子,Ea(k)()表示()内的期望;令V=WTΦ(p),使用迭代权重的方法获得控制方法的价值模型:Wj+1Φ(p(k))=Ea(k)[gk(p,u)+γWjΦ(p(k+1))]式中,为基向量,W是权重向量;步骤5、对控制方法的价值模型求解;令h(p)=UTσ(p),其中权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制方法进行改进:其中h(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;步骤6、利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;步骤7、将步骤3中真实位置输入到步骤4中,经过步骤5-6操作,获取下一步的最优控制策略,并将其作为输出输入到步骤2的系统映射机器人输出模型中,然后循环重复步骤3、7操作,完成水下机器人的追踪任务。进一步的技术方案在于,所述步骤1中的不确定因素为水下的浪涌、摇摆和升沉。进一步的技术方案在于,所述步骤2中的降阶系统映射机器人输出模型的输出均值E'(G'(a1,a2,a3)),与系统映射机器人输出模型的输出均值E(G(a1,a2,a3))相同。进一步的技术方案在于,所述步骤4的具体步骤如下:水下机器人在不同状态k下自身位置为p(k)=[x(k),y(k),z(k)]T,期望轨迹为pr(k)=[xr(k),yr(k),zr(k)]T;为了求得最优控制策略,即水下机器人进行位置追踪时每个状态下所进行的动作h,设置水下机器人在不同状态下的一步代价函数为gk(p,u)=(x(k)-xr(k))2+(y(k)-yr(k))2+(z(k)-zr(k))2+u2(k),其中(x-xr)2+(y-yr)2+(z-zr)2代表追踪误差的代价,u是水下机器人控制器输入,u2代表消耗能量的代价;通过设置的一步代价函数计算价值函数:V(p(k))=Ea(k){gk+γV(p(k+1))}式中,γ∈(0,1)是折扣因子,Ea(k)()表示()内的期望;以此获得最优价值函数和控制策略;在价值更新过程中,令V=WTΦ(p),则价值函数可表示为:Wj+1Φ(p(k))=Ea(k)[gk(p,u)+γWjΦ(p(k+1))]式中,为基向量;W是权重向量,通过最小二乘法迭代求解;得到价值函数后,在策略改进步骤中,同样利用设置基向量和权重向量的方法求解最优追踪控制策略,求解时,令h(p)=UTσ(p),其中权重向量U用梯度下降法进行更新,σ(p)为基向量;利用最小时的价值函数时对控制策略进行改进:其中h(p)是由水下机器人学习通过对环境的学习得到的控制策略,此策略即为最优控制策略。进一步的技术方案在于,所述步骤6的具体内容如下:当每次利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程,得到的权重变化小于阈值0.001时,视为收敛,迭代完成的h作为控制器的输入u输入至水下机器人。进一步的技术方案在于,一种利用水下机器人进行跟踪的控制方法,其将被跟踪物体在水下运动的轨迹作为水下机器人自身期望轨迹,上述所述的一种基于强化学习的水下机器人控制方法,对水下机器人进行控制,实现对被跟踪物体的跟踪。与现有技术相比,本专利技术具有如下优点:本专利技术运用降阶的方法对水下机器人涉及到水下不确定因素的不确定参数进行采样,可以给出精确的原始映射的输出统计量,进而降低计算成本,有效减少模拟次数。本专利技术运用强化学习的方法使水下机器人进行位置追踪,综合了自适应和最优控制的优点,利用环境的响应寻求最优反馈策略。利用周围环本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的水下机器人控制方法,其特征在于,包括以下步骤:步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系,以及建立基于水下环境不确定因素的惯性参考系;步骤2、对于惯性参考系,在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型:

【技术特征摘要】
1.一种基于强化学习的水下机器人控制方法,其特征在于,包括以下步骤:步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系,以及建立基于水下环境不确定因素的惯性参考系;步骤2、对于惯性参考系,在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型:式中,ai是水下机器人受到的第i个不确定因素,为系数,每个不确定因素ai都遵循独立的概率密度函数根据不确定因素各自的概率密度函数,为每个不确定因素定点采样,利用采样点对系统映射机器人输出模型进行训练,构建降阶系统映射机器人输出模型:式中,是低阶映射中不确定因素的系数;步骤3、将水下机器人真实位置转化为步骤1的固定参考系中的坐标,并获取步骤2惯性参考系中的机器人降阶系统映射的模型输出;步骤4、定义水下机器人在不同的状态k下的真实位置为:p(k)=[x(k),y(k),z(k)]T定义水下机器人在不同的状态k下的期望轨迹位置为:pr(k)=[xr(k),yr(k),zr(k)]T定义水下机器人在不同状态k下的下一步动作的一步代价函数为gk(p,u)=(x(k)-xr(k))2+(y(k)-yr(k))2+(z(k)-zr(k))2+u2(k)其中(x-xr)2+(y-yr)2+(z-zr)2代表水下机器人位置误差的代价,u是水下机器人控制器输入,u2代表消耗能量的代价;根据水下机器人位置移动产生的一步代价函数对机器人进行训练,获得价值函数V(p(k))=Ea(k){gk(p,u)+γV(p(k+1))}式中,γ∈(0,1)是折扣因子,Ea(k)()表示()内的期望;令V=WTΦ(p),使用迭代权重的方法获得控制方法的价值模型:Wj+1Φ(p(k))=Ea(k)[gk(p,u)+γWjΦ(p(k+1))]式中,为基向量,W是权重向量;步骤5、对控制方法的价值模型求解;令h(p)=UTσ(p),其中权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制方法进行改进:其中h(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;步骤6、利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;步骤7、将步骤3中真实位置输入到步骤4中,经过步骤5-6操作,获取下一步动作的最优控制策略,并将其作为输出输入到步骤2的系统映射机器人输出模型中,然后循环重复步骤3、7操作,完成水下机器人的追踪任务。2.根据权...

【专利技术属性】
技术研发人员:闫敬公雅迪罗小元杨晛李鑫
申请(专利权)人:燕山大学
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1