【技术实现步骤摘要】
基于双神经网络强化学习的自主水下航行器路径规划方法
本专利技术属于人工智能及路径规划领域,具体涉及一种基于双神经网络强化学习的自主水下航行器路径规划方法。
技术介绍
随着人工智能领域的逐渐发展,越来越多专家的关注和研究如何利用人工智能技术解决自主水下航行器的路径规划问题,科学界也涌现出了大量智能算法,其中包含深度学习、强化学习等,使自主水下航行器(AutonomousUnderwaterVehicle,AUV)的路径规划越来越精确。但是,AUV最终要面临的是如何在未知的环境中的做到准确航行,所以在研究AUV如何提高自身性能的同时也要充分考虑到在未知环境中准确航行的问题。与在已知环境信息下AUV的路径规划问题相比,在未知环境信息下AUV的路径规划问题更加具有挑战性。在现代科学追求高安全性,高精确性和高效率性的时代背景下,在AUV的路径规划问题上,如何提高AUV在未知环境中的学习能力和AUV的环境自适应性也成为目前研究的关键技术性问题。而且,在路径规划算法问题上,传统的单一算法存在较大的弊端,例如被广泛应用的神经网络算法容易陷入 ...
【技术保护点】
1.一种基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,包括以下步骤:/n(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理;/n(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;/n(3)量化处理AUV的环境状态信息,将其与DQN算法相结合得到神经网络结构,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策模型。/n
【技术特征摘要】
1.一种基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,包括以下步骤:
(1)对Q-learning学习算法中存在的需要存储空间大和查找时间长的问题进行优化处理;
(2)在Q-learning学习算法的基础上融入目标网络和基于“优先级”的记忆池经验回放技术得到双神经网络强化学习算法,并构建基于双神经网络强化学习算法的AUV智能路径规划框架;
(3)量化处理AUV的环境状态信息,将其与DQN算法相结合得到神经网络结构,并判断AUV运动方向与目标点位置关系,得到AUV智能规划路径的决策模型。
2.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(1)实现过程如下:
Q-learning学习算法将AUV当前状态st和执行动作at构成一张Q值表,命名为QNet,用于存放AUV每一时刻的状态和执行动作;然后根据Q值表来选取能够获得最大收益的下一步动作at+1,在此基础上优化Q-learning学习算法就是根据AUV当前所处的环境信息去除Q值表中的无效动作,来减少Q值表所需的存储空间和查找Q值表所需要的时间。
3.根据权利要求1所述的基于双神经网络强化学习的自主水下航行器路径规划方法,其特征在于,所述步骤(2)包括以下步骤:
(21)在优化后的Q-learning学习算法的基础上融入目标网络构成两个浅层神经网络:
Qt+1(s,a)=Qt(s,a;θ)+β(r+γmaxQt(st+1,at+1;θt)-Qt(st,at;θ))(2)
其中,Qt+1(s,a)为根据Q值更新公式得到的目标函数值;Qt(s,a)为根据st和at拟合出的当前函数值;β为学习率;r为即时反馈值;γ为折价系数;a为在状态s下AUV执行的动作;
(22)对记忆池进行初始化,并且利用参数θ初始化QNet网络,利用参数θt初始化目标网络AimNet;θ为QNet中函数值的向量表示;θt为AimNet中函数值的向量表示;
(23)将AUV的状态信息定义为其周围障碍物信息加上其本身的姿态信息,初始化AUV开始状态信息为s0,初始化AUV此后每一时刻的当前状态信息为st,时间为t;
(24)根据AUV当前状态信息st选择动作at:AUV的动作由QNet根据当前输入状态信息st下的预测值,选择神经网络输出层最大的Q值对应的动作at作为最优动作;
(25)执行动作at后,AUV的状态转移到下一状态信息st+1,并通过环境信息以及动作信息at和状态信息st+1的反馈,获得即时反馈值rt;
(26)AUV在每次执行动作之后都会得到一组样本信息(st,at,rt,st+1),将样本信息存放到记忆池中,然后构造优先级数组来存放样本信息的优先级和位置索引信息;其中st为当前时刻AUV的状...
【专利技术属性】
技术研发人员:黄浩乾,李光辉,韩亦鸣,王冰,
申请(专利权)人:河海大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。