【技术实现步骤摘要】
一种基于强化学习PPO2算法的无人艇位姿控制方法
[0001]本专利技术属于无人艇控制
,涉及一种基于强化学习PPO2算法的无人艇位姿控制方法。
技术介绍
[0002]无人艇是一种可以实现自主导航、自主避障、自主水面作业的水面无人航行器,具有体积小、速度高、隐身性和无人员伤亡风险等优点。无人艇非常适宜执行对人员伤亡有着较大风险的危险海域内的水面作业任务或者对人员参与度要求低的简单水面作业任务,具有良好的应用,因此广泛而有效地应用在海洋监测、海洋调查、海上搜救、无人货运等领域。
[0003]尽管无人艇研究取得了重大进展,但目前对于水面无人艇的控制有很多难点,复杂的非线性系统、控制的变量多、变量之间相互耦合、欠驱系统等方面都对水面无人艇的控制造成困难。水面无人艇的姿态和位置控制是研究水面无人艇的重要的一部分,主要研究的是在复杂的水面环境中,在有外部干扰和海浪的情况下,对水面无人艇姿态和位置的精准控制。
[0004]强化学习是机器学习中的重要分支,由控制科学、计算机科学等学科发展而来,是智能体在环境中交互试错 ...
【技术保护点】
【技术特征摘要】
1.一种基于强化学习PPO2算法的无人艇位姿控制方法,其特征在于,包括以下步骤:S1、无人艇的环境建模:设计无人艇的模型,建立无人艇运行环境规则、生成无人艇起始点和终点,无人艇的输入为两路PWM波,通过转换后变为两路电机推力,设计分层奖励函数以完成起点到终点的运行,最后通过仿真环境与实际无人艇的交互获得真实情况下的无人艇电机转速,转换后作为环境输入进入神经网络;S2、设置动作空间和状态空间,根据所建立无人艇的情况设置动作空间和状态空间;S3、设置奖励函数:设置奖励的目标权重,基于所需无人艇的控制目标设置奖励函数以达到控制无人艇;S4、设计深度神经网络架构:其深度神经网络结构包括状态价值函数估计器网络结构和策略网络结构;对于一个完整的神经网络Actor
‑
critic算法拥有Actor和Critic两个神经网络结构;S5、基于PPO2算法的控制器训练:使用PPO2算法进行无人艇的位姿控制器训练,设定训练的总周期数目N,在每个周期内无人艇与环境进行信息交互,即模拟无人艇在环境中的运动过程以及无人艇的姿态和位置变化,无论跟踪的结果如何,交互的信息数据都将被按照时间序列存储在经验池中;每当经验池数据存满时,将数据全部取出,依照PPO2算法对策略网络结构进行参数迭代,直到设定的训练周期数目全部训练结束,观察无人艇位姿控制结果,并将学习步长,观测空间,动作空间,训练策略以及训练完成的神经网络保存,作为无人艇下一次调用。2.根据权利要求1所述的一种基于强化学习PPO2算法的无人艇位姿控制方法,其特征在于,在步骤S3中,由于训练的目标是使无人艇能够朝向目标点运动,无人艇与目标点之间距离越小,获得的奖励越高,为使无人艇在目标跟踪过程中平稳追踪目标,将无人艇的速度也作为奖励函数设计的一部分,设计针对无人艇目标跟踪问题强化学习算法中使用的奖励函数为:r=
‑
angle_normalize(x)
‑
0.1r2‑
0.001(f1+f2)2‑
(u
‑
0.5)2‑
0.0001a
...
【专利技术属性】
技术研发人员:薛文涛,吴帅,李顺,叶辉,杨晓飞,
申请(专利权)人:江苏科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。