【技术实现步骤摘要】
一种基于Q学习和胸鳍振幅的仿蝠鲼机器鱼航向控制方法
[0001]本专利技术属于水下仿生机器人智能控制领域,涉及一种基于Q学习和胸鳍振幅的仿蝠鲼机器鱼航向控制方法。
技术介绍
[0002]随着社会科学技术的发展和人类面临的日益严峻的生态环境问题,人类对海洋环境的探测和资源的开采需求日益增加。自主水下航行器(AUV)能够在近远海域水下环境监测、科学考察、水下考古、资源开发等任务,具有很好的科学和工程应用前景。仿蝠鲼水下机器鱼是一种新型的仿生AUV,相比传统的螺旋桨推进器,其具有更好的环境亲和性和高机动能力,复杂环境适应能力更强。近些年,仿生水下机器人的控制问题引起了学者们的研究兴趣和热情,相关领域的科学与技术问题也得到了极大的发展。
[0003]水下仿生机器人的控制问题是仿生机器人的难点之一,而航向控制作为姿态控制的一部分是水下仿生机器人实现其他任务的基础,是实现水下作业控制的基本要求之一。目前水下航向控制方法可以按照需不需要模型分为基于模型的方法和无模型的方法。基于模型的方法需要对控制对象建立数学模型,而仿生水下机器人 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于Q学习和胸鳍振幅的仿蝠鲼机器鱼航向控制方法,其特征在于步骤如下:步骤1、建立仿蝠鲼机器鱼航向控制问题的有限马尔科夫模型:1、建立航向控制的离散状态空间S:S={s
‑
n
,s
_n+1
,
…
,s
‑1,s0,s1,
…
,s
n
‑1,s
n
}其中,s
‑
n
=(
‑
∞,Δψ
‑
n
],s
‑
n+1
=(Δψ
‑
n
,Δψ
‑
n+1
],
……
,s
‑1=(Δψ
‑2,Δψ
‑1],s0=(Δψ
‑1,Δψ1),s1=(Δψ1,Δψ2],
……
,s
n
‑1=(Δψ
n
‑1,Δψ
n
]s
n
=(Δψ
n
,+∞]其中,Δψ
i
的取值范围根据实际情况调整,i∈{
‑
n,
‑
n+1,
…
,
‑
1,0,1,
…
,n
‑
1,n};2、建立离散动作空间A:基于胸鳍振幅的仿蝠鲼机器鱼航向控制的动作空间为连续动作空间[0,+a
max
],将控制变量离散化为n+1个动作,设离散动作空间:A={a0,a1,
…
,a
n
‑1,a
n
}其中a表示动作空间的元素,代表固定的胸鳍摆动的幅度,且0≤a≤a
max
;3、设计奖励函数:其中:δ为调整仿蝠鲼机器鱼的深度控制精度的参数;所述r
t+1
为在时刻t,状态为s
t
,动作为a
t
,下一时刻状态为s
t+1
,得到的奖励;步骤2、建立动作
‑
价值函数表格Q(s,a):步骤3、训练Q表格:1、训练数据样本:以原始深度和姿态变化数据,计算t时刻奖励函数r
t+1
(s
t
,a
t
);建立训练Q表的数据集Data
test
,设存储量为N,里面存储状态转移信息Transition;
其中:Data
test
={Transition1,Transition2,
…
,Transition
N
}Transition
i
={s
t
,a
t
,s
t+1
技术研发人员:曹勇,张代利,潘光,曹永辉,黄桥高,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。