【技术实现步骤摘要】
一种基于深度强化学习的水下航行器底层控制方法及系统
[0001]本专利技术属于深度强化学习以及智能控制相关
,尤其涉及一种基于深度强化学习的水下航行器底层控制方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]在海洋开发日益重要的现在,水下航行器越来越得到各个国家的重视,无论是在民用还是在军用上,都扮演着重要的角色。但由于水下航行器具有强耦合性、高度非线性等特点,在水下环境运行时又容易受到洋流等因素干扰,导致水下航行器的控制难度增大。
[0004]水下航行器底层控制包括对推进器控制、传感器信号处理等。经典控制技术虽然在底层控制上取得重大成就,但水下航行器复杂的操作条件和面临的恶劣水下环境对底层控制要求更高。深度强化学习具有强大的感知能力与决策能力,能自主适应恶劣的水下环境与水下航行器复杂的操作条件,能很好地实现对水下航行器的底层控制。
[0005]近年来,深度强化学习在水下航行器的应用上表现出优异性能,尤其是策略
...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的水下航行器底层控制方法,其特征是,包括:根据水下航行器的状态信息、动作信息建立水下航行器底层控制的马尔科夫决策模型;基于所建立的水下航行器底层控制的马尔科夫决策模型,将水下航行器底层控制的系统控制目标转换为基于策略
‑
评价网络的深度强化学习下的水下航行器底层控制目标;根据水下航行器的状态信息得到新的动作信息、动作信息所对应的即时奖励值以及观测到的新的状态信息并存入经验回收池,通过经验回收池对策略
‑
评价网络进行迭代训练;将迭代训练后的策略
‑
评价网络作为控制网络实现对水下航行器的底层控制。2.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,定义水下航行器底层控制系统的输入、输出、位置误差,所述输入包括传感器所测量的水下航行器的当前位置向量、当前的速度向量以及当前的加速度向量;所述输出包括推进器推力、水平舵舵角和垂直舵舵角;所述位置误差为传感器所测量的水下航行器当前的位置信息与路径规划所给出的参考位置信息之差。3.如权利要求2所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,建立水下航行器的底层控制的马尔科夫决策模型,包括定义状态向量、定义动作向量、定义奖励函数;所述定义状态向量包括水下航行器的当前位置向量、当前速度向量、当前加速度向量、参考位置信息以及上一时间步水下航行器底层控制系统的输出;所述定义动作向量为定义第t个时间步的动作向量为第t个时间步的水下航行器底层控制系统的输出;所述定义奖励函数根据水下航行器当前位置误差、与下一时间步的期望位置误差、水下航行器底层控制系统输出的动作、期望航向角、横倾角与横倾角速度所确定。4.如权利要求1所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,所述基于策略
‑
评价网络的深度强化学习下的水下航行器底层控制目标中策略网络的损失函数为:函数为:其中,为裁剪因子,为优势函数,代表原始策略网络权重下的优势函
数,策略为在状态下选择动作的概率,则代表原策略在状态下选择动作的概率,为状态向量,为系统输出。5.如权利要求4所述的一种基于深度强化学习的水下航行器底层控制方法,其特征是,对于基于策略
‑
评价网络的深度强化学习下的水下航行器底层控制目标的评价网络的损失函数为:其中,为评价网络权重,为评价网络的输出值,为第t个时间步计算得到的价值函数值。6.如权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。