【技术实现步骤摘要】
基于深度强化学习的无人艇天气自适应避障方法
本专利技术涉及一种无人艇天气自适应避障方法,特别涉及一种基于深度强化学习的无人艇天气自适应避障方法。
技术介绍
随着海洋开发活动日益增多,无人艇作为水面智能任务平台,可以搭载多种传感器,完成环境监测、水文调查、巡逻搜救等任务。无人艇在执行任务的过程中,规避船只、岛礁或者其它障碍物,以最优路径到达指定地点是无人艇的基本能力之一。无人艇保障航行安全、实现智能化离不开自主避障技术。无人艇的自主避障是指通过艇载传感设备探测水面无人艇的周围环境,规划出一条平滑无碰撞的路径,快速安全地到达任务位置。然而,传统的避障算法依赖于确切的环境信息,需要人为设计场景的数学模型,具有较高的实现复杂性,难以在实现成本和求解效果上进行权衡。特别是在例如天气变化等环境中,依赖专家经验进行建模难以应对无人艇运行环境的复杂性。深度强化学习这一人工智能领域前沿技术为复杂环境中的感知决策问题提供了解决思路,通过试错的机制与环境进行交互,对避障策略进行自学习。但基于深度强化学习的避障方法依然存在奖励函数设置难、训 ...
【技术保护点】
1.一种基于深度强化学习的无人艇天气自适应避障方法,其特征在于,步骤如下:/n(1)基于PPO算法,构建深度强化网络;/n(2)构建无人艇避障的仿真环境与无人艇模型,并定义所述无人艇模型的状态空间与动作空间;所述状态空间包括无人艇模型上的图像传感器采集的环境图像与预设目标点的三维坐标信息;所述动作空间包括无人艇模型的转向角度与推力;/n(3)设计基于时序距离的奖励函数;/n(4)利用所述深度强化网络,采样不同天气下无人艇模型在与仿真环境交互时产生的多个样本数据;/n(5)基于PPO算法,利用多个样本数据对深度强化网络进行训练,从而得到不同天气下无人艇的自动避障模型。/n
【技术特征摘要】
1.一种基于深度强化学习的无人艇天气自适应避障方法,其特征在于,步骤如下:
(1)基于PPO算法,构建深度强化网络;
(2)构建无人艇避障的仿真环境与无人艇模型,并定义所述无人艇模型的状态空间与动作空间;所述状态空间包括无人艇模型上的图像传感器采集的环境图像与预设目标点的三维坐标信息;所述动作空间包括无人艇模型的转向角度与推力;
(3)设计基于时序距离的奖励函数;
(4)利用所述深度强化网络,采样不同天气下无人艇模型在与仿真环境交互时产生的多个样本数据;
(5)基于PPO算法,利用多个样本数据对深度强化网络进行训练,从而得到不同天气下无人艇的自动避障模型。
2.根据权利要求1所述的基于深度强化学习的无人艇天气自适应避障方法,其特征在于,在所述步骤(3)中,对深度强化网络进行训练的奖励函数与无人艇模型与预设目标点之间的距离相关,采用基于时序距离的奖励函数的公式如下:
其中,rt表示t时刻的奖励值,-λ为预设负奖励值,dt(U,T)表示t时刻所述无人艇模型U与预设目标点T之间的距离,δ为预设距离值。
3.根据权利要求1所述的基于深度强化学习的无人艇天气自适应避障方法,其特征在于,在所述步骤(5)中,基于PPO算法构建深度强化网络的步骤如下:
(5-1)基于PPO算法,构建包括策略网络与价值网络的所述深度强化网络;
(5-2)利用深度强化网络采样无人艇模型在与所述不同天气下的仿真环境交互时产生的多个样本数据;
(5-3)利用初始化后的深度强化网络中的所述策略网络,对无人艇模型在与不同天气下的仿真环境交互时产生的多个样本数据进行采样;
(5-4)利用多个样本数据对深度强化网络进行训练,从而得到无人艇的自动避障模型。
4.根据权利要求3所述的基于深度强化学习的无人艇天气自适应避障方法,其特征在于,在所述步骤(5-3)中,策略网络包括新策略网络与旧策略网络;每个样本数据包括状态、动作以及奖励;
在所述步骤(5-4)中,基于PPO算法,利用多个样本数据对深度强化网络进行训练,得到无人艇的自动避障模型,具体步骤为:
(5-4-1)利用各样本数据中的状态输入到所述价值网络,得到各样本数据的价值,并利用基于各样本数据的价值与累积奖励计...
【专利技术属性】
技术研发人员:骆祥峰,张瀚,谢少荣,陈雪,
申请(专利权)人:上海大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。