基于深度强化学习的无人船路径跟随系统及方法技术方案

技术编号:34452316 阅读:25 留言:0更新日期:2022-08-06 16:54
本发明专利技术公开了基于深度强化学习的无人船路径跟随系统,它的仿真平台构建模块用于构建无人船运动交互仿真平台;所述马尔科夫决策建模模块用于利用无人船运动控制任务进行马尔科夫决策过程建模;神经网络构建模块用于依据马尔科夫决策过程中的状态空间、动作空间和奖励函数,基于DDPG算法架构设计深度神经网络;策略模型构建模块在仿真平台上使用DDPG算法对深度神经网络进行训练,得到无人船路径跟随控制策略模型;路径跟随控制模块用于将无人船路径跟随控制策略模型结合视线制导算法实现无人船路径跟随控制。本发明专利技术将船舶运动模型与控制算法分离,简化了控制策略的设计过程,显著降低或消除了对船舶运动控制领域专业知识的依赖。的依赖。的依赖。

【技术实现步骤摘要】
基于深度强化学习的无人船路径跟随系统及方法


[0001]本专利技术涉及无人船运动控制
,具体地指一种基于深度强化学习的无人船路径跟随系统及方法。

技术介绍

[0002]高度自主化、智能化的无人船是造船和航运产业发展的必然趋势。无人船以实现船舶无人化、智能化为目标,能有效提高设备及船舶运营的安全性、优化航行策略、降低运营成本。由此,无人船成为各个造船大国和海上强国发展的重点方向。路径跟随作为无人船运动控制的基本任务之一,是实现无人船自主智能航行的关键。
[0003]传统的无人船路径跟随方法建立在数学估计分析的基础上,通过数学分析与推导来确定控制器的参数,控制器的设计与参数整定过程都依赖较强的专业知识。目前,已经证明了基于数学估计分析的路径跟随方法的有效性能,但其本身具有较大的局限性,如计算复杂度高、可移植性差、受环境干扰影响较大。特别是在航行过程中易受到航行条件变化、环境干扰等因素的影响,表现出了较强的不确定性、非线性和时变性,很难建立精确的数学模型来表达船舶的变化状态,这给无人船路径跟随任务带来了极大的挑战。无人船在实时航行过程中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无人船路径跟随系统,其特征在于:它包括仿真平台构建模块、马尔科夫决策建模模块、神经网络构建模块、策略模型构建模块和路径跟随控制模块;所述仿真平台构建模块用于构建无人船运动交互仿真平台,并在无人船运动交互仿真平台中初始化无人船的目标路径和航行环境,根据无人船路径跟随的需求定义无人船运动控制任务;所述马尔科夫决策建模模块用于利用无人船运动控制任务进行马尔科夫决策过程建模,马尔科夫决策过程用来描述无人船路径跟随控制的交互过程,根据船舶完成路径跟随任务所需要的信息确定马尔科夫决策过程的状态空间,根据船舶控制指令确定马尔科夫决策过程的动作空间,根据船舶控制的目标任务确定马尔科夫决策过程的奖励函数;所述神经网络构建模块用于依据马尔科夫决策过程中的状态空间、动作空间和奖励函数,基于DDPG算法架构设计深度神经网络;所述策略模型构建模块在仿真平台上使用DDPG算法对深度神经网络进行训练,得到无人船路径跟随控制策略模型;所述路径跟随控制模块用于将无人船路径跟随控制策略模型结合视线制导算法实现无人船路径跟随控制。2.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:所述仿真平台构建模块通过Unity3D引擎构建虚拟3D航行环境,并在Pycharm软件中构建船舶航向和速度的控制模型,利用Airsim软件的通信工具包实现虚拟3D航行环境与船舶航向和速度的控制模型之间的数据交互,形成无人船运动交互仿真平台。3.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:所述马尔科夫决策过程建模的具体方法为:马尔科夫决策过程由元组(S,A,P,R,γ)描述,其中S为无人船的状态空间,A为无人船的动作空间,P为状态转移概率,R为奖励函数,γ是折扣因子,用于权衡即时奖励和未来长期奖励之间的关系,在t时刻,无人船的状态信息s
t
∈S,依据相应的动作策略,从动作空间中选择动作a
t
执行,随后无人船的状态转移到一个新的状态s
t+1
,同时获得反馈奖励值r
t
,无人船的任务目标就是在完成交互过程中使累积奖励值最大;构建无人船状态空间;所述状态空间S表示为:其中ψ
d
表示期望航向角,χ是船舶航向角与期望航向之间的差值,e
y
表示船舶位置与期望航线的横向位置误差,u船舶的速度,为期望航向角、航向误差、位置横向误差的导数;构建无人船动作空间;所述动作空间A表示为:A={δ},其中δ为船舶舵角;构建奖励函数;所述奖励函数包括与目标路径的相对位置和相对航向情况,表示为:r=w
e
r
e
+w
χ
r
χ
,其中r
e
为位置误差奖励,r
χ
是航向误差奖励,w
e
为位置误差奖励权重,w
χ
为航向误差奖励权重;所述位置误差奖励函数和航向误差奖励为:
其中,χ(k)是当前时刻的航向误差,χ(k

1)表示上一时刻航向误差,k1为第一权重系数、k2为第二权重系数、k3为第三权重系数,e为自然常数,rad表示弧度。4.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:所述深度神经网络包括:当前策略网络、当前评估网络、目标策略网络、目标评估网络;所述当前策略网络以无人船的当前状态信息s
t
为输入,输出当前策略动作μ(s
t
);所述当前评估网络以状态和动作对(s
t
,a
t
)为输入,输出计算当前Q值;所述目标策略网络与当前策略网络结构相同,所述目标策略网络以下一时刻状态s
t+1
为输入,输出为下一时刻最优动作μ'(s
t+1

μ'
),所述目标评估网络以下一时刻状态s
t+1
和下一时刻最优动作μ

(s
t+1

μ

)为输入,输出预估Q值Q

(s
t+1


(s
t+1

μ

)|θ
Q

);所述目标评估网络与当前评估网络结构相同。5.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:状态空间的维度定义了当前策略网络的输入;动作空间的维度定义了当前策略网络的输出;状态空间维度和动作空间维度定义了当前评估网络的输入;通过状态空间和动作空间确定了神经网络的输入层节点个数、输出层节点个数。6.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:所述当前策略网络的网络参数为θ
μ
,以无人船的当前状态s
t
为输入,输出当前策略动作μ(s
t
),加入OU探索噪声后就得到了要执行的动作a
t
;所述当前评估网络的网络参数为θ
Q
,以状态和动作对(s
t
,a
t
)为输入,输出计算当前Q值Q(s
t
,a
t

Q
);所述目标策略网络的网络参数为θ
μ

,以下一时刻状态s
t+1
为输入,输出为下一时刻最优动作μ

(s
t+1

μ

);所述目标评估网络的网络参数为θ
Q

,以下一时刻状态s
t+1
和下一时刻最优动作下一时刻最优动作μ

(s
t+1

μ

)为输入,输出预估Q值Q

(s
t+1


(s
t+1

μ

)|θ
Q

)。7.根据权利要求1所述的基于深度强化学习的无人船路径跟随系统,其特征在于:所述得到无人船路径跟随控制策略模型的具体方法为:步骤4.1、将深度神经网络中的训练回合次数M,每回合最大步数T,软更新率τ,当前策略网络和当前评估网络学习率,衰减因子γ初始化;步骤4.2、初始化当前策略网络参数θ
μ
、当前评估网络参数θ...

【专利技术属性】
技术研发人员:杨杰韦港文刘今栋尚午晟梁奇
申请(专利权)人:武汉理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1