一种基于Q-learning强化学习的组合导航方法、装置及计算机介质制造方法及图纸

技术编号：37293926 阅读：9 留言：0更新日期：2023-04-21 22:41

本发明专利技术提出了一种基于Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Q
‑
learning强化学习的组合导航方法、装置及计算机介质

[0001]本专利技术涉及组合导航
，具体涉及一种基于Q
‑
learning强化学习的组合导航方法、装置及计算机介质。

技术介绍

[0002]在海洋导航中，SINS/GNSS/DVL组合导航系统被广泛应用于各类舰船导航方案。卡尔曼滤波(KF)在SINS/GNSS/DVL组合导航系统的信息融合中发挥至关重要的作用。通常情况下，KF量测噪声协方差矩阵主要由仪器生产商提供校准结果，使用中将其设定为常矩阵。受复杂海洋环境影响，DVL测速误差可能增大，导致导航精度下降，甚至出现误差发散的情况。不同海域的环境各不相同，难以建立一个精确模型来描述DVL的测速误差。
[0003]对此现有技术中主要有两类解决方案，一是当DVL精度下降时，采用载体的运动学模型代替DVL输出速度观测量的方法。二是采用自适应卡尔曼滤波。相较于传统卡尔曼滤波，自适应卡尔曼滤波通过引入遗忘因子计算加权系数，重新估计观测噪声协方差。
[0004]普通卡尔曼滤波的量测噪声协方差矩阵为常矩阵，对于复杂海底环境的适应性较差。当DVL精度下降时，采用载体的运动学模型代替DVL输出速度观测量的方法仅能短时维持组合导航的精度，且增大了算法的复杂度。自适应卡尔曼滤波是基于新息计算量测噪声方差矩阵。它包含了所有观测量的信息，矩阵运算维数较高，而且可能会产生误差耦合，导致收敛速度较慢。如果只想自适应调整速度量测噪声，自适应卡尔曼滤波的方法则会增大计算量...

【技术保护点】

【技术特征摘要】
1.一种基于Q
‑
learning强化学习的组合导航方法，其特征在于，步骤如下：步骤S1：定义坐标系，具体是，所述坐标系包括惯性坐标系、地球坐标系、地理坐标系、导航坐标系和载体坐标系；步骤S2：建立惯性导航系统误差模型，具体是：基于步骤S1中的坐标系建立惯性导航系统误差模型，所述惯性导航系统误差模型包括姿态误差模型、速度误差模型、位置误差模型以及加速度计和陀螺误差模型；步骤S3：建立卡尔曼滤波器，具体是：将步骤S2中的惯性导航系统误差模型与测速仪信息以及卫星定位信息融合建立组合导航系统，并建立其卡尔曼滤波器，所述卡尔曼滤波器包括状态方程、量测方程和卡尔曼滤波方程；步骤S4：获取最优速度量测噪声并进行导航解算，具体是：使用Q
‑
learning强化学习算法自适应更新组合导航系统中的速度量测噪声，得到最优速度量测噪声，位置量测噪声保持不变，将最优速度量测噪声和位置量测噪声代入步骤S3中的卡尔曼滤波器中进行导航解算得到导航信息。2.根据权利要求1所述的组合导航方法，其特征在于，在步骤S1中，不同的坐标系之间通过多次基本旋转进行坐标系变换，将旋转矩阵连乘后得到坐标系之间的变换矩阵，所述变换矩阵按照z
‑
x
‑
y的旋转次序获得。3.根据权利要求2所述的组合导航方法，其特征在于，在步骤S2中，所述惯性导航系统为捷联惯性导航系统；在步骤S3中，所述测速仪信息采用多普勒测速仪采集，卫星定位信息采用全球导航卫星系统以及伪距单点定位方法采集，所述组合导航系统为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统。4.根据权利要求3所述的组合导航方法，其特征在于，在步骤S4中，所述Q
‑
learning强化学习算法的设置如下：强化学习的环境设置为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统，代理为Q

【专利技术属性】
技术研发人员：赵英伟，李湘源，王省书，谭文锋，郑佳兴，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人