一种基于Q-learning强化学习的组合导航方法、装置及计算机介质制造方法及图纸

技术编号:37293926 阅读:9 留言:0更新日期:2023-04-21 22:41
本发明专利技术提出了一种基于Q

【技术实现步骤摘要】
一种基于Q

learning强化学习的组合导航方法、装置及计算机介质


[0001]本专利技术涉及组合导航
,具体涉及一种基于Q

learning强化学习的组合导航方法、装置及计算机介质。

技术介绍

[0002]在海洋导航中,SINS/GNSS/DVL组合导航系统被广泛应用于各类舰船导航方案。卡尔曼滤波(KF)在SINS/GNSS/DVL组合导航系统的信息融合中发挥至关重要的作用。通常情况下,KF量测噪声协方差矩阵主要由仪器生产商提供校准结果,使用中将其设定为常矩阵。受复杂海洋环境影响,DVL测速误差可能增大,导致导航精度下降,甚至出现误差发散的情况。不同海域的环境各不相同,难以建立一个精确模型来描述DVL的测速误差。
[0003]对此现有技术中主要有两类解决方案,一是当DVL精度下降时,采用载体的运动学模型代替DVL输出速度观测量的方法。二是采用自适应卡尔曼滤波。相较于传统卡尔曼滤波,自适应卡尔曼滤波通过引入遗忘因子计算加权系数,重新估计观测噪声协方差。
[0004]普通卡尔曼滤波的量测噪声协方差矩阵为常矩阵,对于复杂海底环境的适应性较差。当DVL精度下降时,采用载体的运动学模型代替DVL输出速度观测量的方法仅能短时维持组合导航的精度,且增大了算法的复杂度。自适应卡尔曼滤波是基于新息计算量测噪声方差矩阵。它包含了所有观测量的信息,矩阵运算维数较高,而且可能会产生误差耦合,导致收敛速度较慢。如果只想自适应调整速度量测噪声,自适应卡尔曼滤波的方法则会增大计算量
[0005]综上所述,急需一种用于复杂未知海域的组合导航方法以解决现有技术中存在的问题。

技术实现思路

[0006]本专利技术目的在于提供一种基于Q

learning强化学习的组合导航方法、装置及计算机介质,具体技术方案如下:
[0007]一种基于Q

learning强化学习的组合导航方法,步骤如下:
[0008]步骤S1:定义坐标系,具体是,所述坐标系包括惯性坐标系、地球坐标系、地理坐标系、导航坐标系和载体坐标系;
[0009]步骤S2:建立惯性导航系统误差模型,具体是,基于步骤S1中的坐标系建立惯性导航系统误差模型,所述惯性导航系统误差模型包括姿态误差模型、速度误差模型、位置误差模型以及加速度计和陀螺误差模型;
[0010]步骤S3:建立卡尔曼滤波器,具体是,将步骤S2中的惯性导航系统误差模型与测速仪信息以及卫星定位信息融合建立组合导航系统,并建立其卡尔曼滤波器,所述卡尔曼滤波器包括状态方程、量测方程和卡尔曼滤波方程;
[0011]步骤S4:获取最优速度量测噪声并进行导航解算,具体是,使用Q

learning强化学
习算法自适应更新组合导航系统中的速度量测噪声,得到最优速度量测噪声,位置量测噪声保持不变,将最优速度量测噪声和位置量测噪声代入步骤S3中的卡尔曼滤波器中进行导航解算得到导航信息。
[0012]具体的,在步骤S1中,不同的坐标系之间通过多次基本旋转进行坐标系变换,将旋转矩阵连乘后得到坐标系之间的变换矩阵,所述变换矩阵按照z

x

y的旋转次序获得。
[0013]具体的,在步骤S2中,所述测速仪信息采用多普勒测速仪采集,卫星定位信息采用全球导航卫星系统以及伪距单点定位方法采集,所述组合导航系统为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统。
[0014]具体的,在步骤S4中,所述Q

learning强化学习算法的设置如下:
[0015]强化学习的环境设置为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统,代理为Q

learning,状态为DVL量测噪声,动作为DVL量测噪声变化量,奖励值为位置误差绝对值的倒数。
[0016]具体的,设置强化学习步长,以及强化学习的参数,具体如下:
[0017]强化学习状态空间S为DVL速度量测噪声V的集合;动作空间A为DVL速度量测噪声的改变量δV的集合;奖励值r为速度误差绝对值的倒数,即r=1/|δp|;建立Q值表Q(S,A);动作价值函数Q(s
t
,a
t
),其中,a
t
表示t时刻动作,S
t
表示t时刻状态。
[0018]具体的,在步骤S4的Q

learning强化学习算法中,对动作的更新方式如下:
[0019][0020]其中,a
t
表示更新后t+1时刻的动作,datasample(A)表示从动作空间中随机选取一个动作;表示选取Q值最大对应的动作;rand
t
为t时刻的随机数,取值范围为[0,1];ε为贪婪系数。
[0021]具体的,在步骤S4的Q

learning强化学习算法中,对动作价值函数Q(s
t
,a
t
)的更新方式如下:
[0022][0023]其中,α为学习速率;γ为折扣因子;r
t+1
为选取了新动作a
t+1
后得到的奖励值。
[0024]另外,本专利技术还提出了一种组合导航装置,包括:
[0025]存储器,用于存储计算机程序;
[0026]处理器,用于执行所述计算机程序时实现如上述的组合导航方法。
[0027]另外,本专利技术还提出了一种计算机介质,所述计算机介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的组合导航方法。
[0028]应用本专利技术的技术方案,具有以下有益效果:
[0029]本专利技术中的组合导航方法将基于Q

learning强化学习的自适应卡尔曼滤波算法(QKF)用于SINS/GNSS/DVL组合导航系统,自适应地对速度量测噪声作最优估计,以更好适应复杂海底环境造成的DVL测速误差增大的情况,提高了组合导航的精度。本专利技术能够根据外界环境自适应地调整速度量测噪声值,收敛速度更快、速度误差和位置误差更小,且更为
稳定。
[0030]除了上面所描述的目的、特征和优点之外,本专利技术还有其它的目的、特征和优点。下面将参照图,对本专利技术作进一步详细的说明。
附图说明
[0031]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0032]图1是组合导航方法的流程示意图;
[0033]图2是坐标旋转变换示意图;
[0034]图3是组合导航系统应用本实施例优选的组合导航方法的工作流程图;
[0035]图4是DVL测速误差(DVL measurement error)的结果示意图;
[0036]图5a是KF、AKF、QKF导航解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Q

learning强化学习的组合导航方法,其特征在于,步骤如下:步骤S1:定义坐标系,具体是,所述坐标系包括惯性坐标系、地球坐标系、地理坐标系、导航坐标系和载体坐标系;步骤S2:建立惯性导航系统误差模型,具体是:基于步骤S1中的坐标系建立惯性导航系统误差模型,所述惯性导航系统误差模型包括姿态误差模型、速度误差模型、位置误差模型以及加速度计和陀螺误差模型;步骤S3:建立卡尔曼滤波器,具体是:将步骤S2中的惯性导航系统误差模型与测速仪信息以及卫星定位信息融合建立组合导航系统,并建立其卡尔曼滤波器,所述卡尔曼滤波器包括状态方程、量测方程和卡尔曼滤波方程;步骤S4:获取最优速度量测噪声并进行导航解算,具体是:使用Q

learning强化学习算法自适应更新组合导航系统中的速度量测噪声,得到最优速度量测噪声,位置量测噪声保持不变,将最优速度量测噪声和位置量测噪声代入步骤S3中的卡尔曼滤波器中进行导航解算得到导航信息。2.根据权利要求1所述的组合导航方法,其特征在于,在步骤S1中,不同的坐标系之间通过多次基本旋转进行坐标系变换,将旋转矩阵连乘后得到坐标系之间的变换矩阵,所述变换矩阵按照z

x

y的旋转次序获得。3.根据权利要求2所述的组合导航方法,其特征在于,在步骤S2中,所述惯性导航系统为捷联惯性导航系统;在步骤S3中,所述测速仪信息采用多普勒测速仪采集,卫星定位信息采用全球导航卫星系统以及伪距单点定位方法采集,所述组合导航系统为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统。4.根据权利要求3所述的组合导航方法,其特征在于,在步骤S4中,所述Q

learning强化学习算法的设置如下:强化学习的环境设置为捷联惯性导航系统/全球导航卫星系统/多普勒测速仪组合导航系统,代理为Q

【专利技术属性】
技术研发人员:赵英伟李湘源王省书谭文锋郑佳兴
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1