【技术实现步骤摘要】
一种基于Q学习的水下机器人避障控制方法
本专利技术属于水下机器人控制
,尤其是一种面对水下障碍物进行及时躲避的最优控制,具体的是一种基于Q学习的水下机器人避障控制方法。
技术介绍
海洋约占地表的71%,将会成为人类新的探索空间。水下机器人通过特定的传感器感知障碍物,进行规避。然而海洋环境特性十分复杂,如礁石,珊瑚,海沟甚至海洋突发情况(迅速聚集的鱼群),因此在探索时,水下机器人顺利躲避障碍物显得尤为重要。从现有技术中检索发现,公开号为CN107121985A的专利申请公开了一种水下智能机器人的雷达避障系统,该方案以雷达收发器为主要载体,结合单片机的定时器以完成对障碍物的有效避障。该方法尽管能完成水下机器人的避障工作,但雷达传播方式主要为电磁波,而电磁波在水下传播会很快的衰减,接收到的信号变弱,就会造成规避不及时进而导致机器人发生碰撞。再有,公开号为CN108829134A的专利申请公开了一种深海机器人实时自主避障方法,该专利技术使用几何球体对不规则障碍物进行建模,将障碍物投影到水平和垂直面上,采用切线法 ...
【技术保护点】
1.一种基于Q学习的水下机器人避障控制方法,其特征在于:该方法包括以下步骤:/n步骤1,通过安装在水下机器人声呐接收装置的信号建立机器人所处的当前环境;水下机器人采用的动力学模型为/n
【技术特征摘要】
1.一种基于Q学习的水下机器人避障控制方法,其特征在于:该方法包括以下步骤:
步骤1,通过安装在水下机器人声呐接收装置的信号建立机器人所处的当前环境;水下机器人采用的动力学模型为
其中M表示惯性矩阵,C表示科氏力矩阵,D表示阻尼矩阵,G表示重力矩阵,τ为控制输入,v为控制输出;
水下机器人共有6个自由度,假设在第n个自由度上,机器人与障碍物的距离为xn,水下机器人设定的安全警戒距离为d,水下机器人若在第n个自由度上有xn<d,则表示水下机器人可能发生碰撞,同时在该自由度上采取相应的规避动作;
步骤2,利用定位技术确定每一时刻水下机器人的位置Di,其中i表示第i时刻,比较该时刻水下机器人与目标点的距离Di和上一时刻水下机器人与目标点的距离Di-1,若Di>Di-1,表示机器人正在远离目标点,若Di<Di-1,表示机器人正在靠近目标点,并计算当前时刻水下机器人与目标点的距离D,考虑水下存在波动,设置目标点阈值d0,若D<d0,则表示水下机器人已到达目标点;根据水下机器人的自由度建立动作空间A;
步骤3,依据水下机器人利用Q学习选择动作要惩罚最小化,设置每步奖罚机制,设定初始惩罚为K,在步骤1中,水下机器人与目标点间距离奖罚函数R1有下式给出,
即出现Di>Di-1,则给予一个惩罚K,出现Di<Di-1,则给予一个负惩罚-K,在步骤2中,水下机器人在安全警戒阈值内靠近障碍物的奖罚函数R2有下式给出
其中上式表示当障碍物进入到安全警戒距离内,该奖罚函数值在随着水下机器人靠近障碍物距离的减小而增大;当障碍物在安全警戒距离外时,该奖罚函数值为K,水下机器人的每步总奖罚为R=R1+R2;同时水下机器人根据奖罚函数对障碍物进行规避,当该步惩罚相对于上一步惩罚变大时,表示水下机...
【专利技术属性】
技术研发人员:闫敬,李文飚,杨晛,罗小元,
申请(专利权)人:燕山大学,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。