一种基于强化学习的导航滤波器参数优化方法技术

技术编号:23191176 阅读:29 留言:0更新日期:2020-01-24 16:22
本发明专利技术涉及一种基于强化学习的导航滤波器参数优化方法。首先,基于∈贪心策略,根据状态动作值函数选择不同系统噪声和测量噪声方差的组合;同时,通过导航滤波器在应用环境中进行探索,并根据导航滤波器的测量残差计算得到奖赏;进而,根据计算得到的奖赏,利用时序差分方法更新状态动作值函数,其取值反映了所选择的噪声方差与实际应用环境的匹配程度;随着导航滤波过程的进行,通过迭代计算,能够以较大的概率选择与实际应用环境相匹配的噪声方差,从而实现自适应地调整导航滤波器中系统噪声方差和测量噪声方差的目的。所提方法能够增强导航滤波器克服系统噪声和测量噪声方差不确定性影响的能力,改善卫星自主导航精度。

A parameter optimization method of navigation filter based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的导航滤波器参数优化方法
本专利技术涉及一种基于强化学习的导航滤波器参数优化方法,属于卫星自主导航

技术介绍
基于卡尔曼滤波理论设计的传统导航滤波器在卫星自主导航
得到广泛应用。众所周知,传统导航滤波器的设计依赖已知的系统噪声方差和测量噪声方差。但是,在解决实际工程问题的过程中,往往会遇到噪声方差存在不确定性的情况。举例来说,在基于星间相对测量的星座卫星自主导航系统中,导航敏感器在轨测量误差特性会受到观测平台姿态抖动、太阳光照条件和空间热环境等因素的影响,考虑在地面试验室模拟空间应用环境的局限性,导航敏感器在实际应用环境中的测量误差特性可能不同于试验室测试的情况。对于系统噪声和测量噪声统计特性的不确定性,基于卡尔曼滤波理论设计的传统导航滤波器不具备自适应能力。在实际噪声方差偏离其标称值的情况下,会导致滤波器性能下降。因此,需要有针对性地改进滤波器的设计,以提升导航系统的性能。针对噪声统计特性不确定性的影响,以往研究中已给出多种策略,主要目的是增强滤波器的自适应能力,其中,具有噪声方差在线估计能力的自适应滤波器得到广泛重视。针对带有系统噪声或测量噪声统计特性不确定性的系统,已提出自适应卡尔曼滤波器(AdaptiveKalmanFilter/AKF)等多种算法。自适应滤波器的问题在于,对于噪声方差存在不确定性的情况,受噪声方差估计与滤波估计误差的耦合影响,使得滤波器的整体性能得不到保证。举例来说,对于所研究的星座卫星自主导航系统,在同时估计噪声方差和卫星位置、速度时,往往会出现自适应卡尔曼滤波器估计精度不及传统卡尔曼滤波器的情况。
技术实现思路
本专利技术的技术解决问题是:针对模型中的噪声方差不确定性导致滤波器估计误差增大的问题,提出一种基于强化学习的导航滤波器参数优化方法。该方法能够根据基准滤波器和搜索滤波器的测量残差识别导航敏感器测量误差增大的情况,与实际应用环境进行交互并作出调整,通过学习得到导航滤波器中噪声方差阵的取值,从而实现对不同导航敏感器测量信息的优化处理,增强星座卫星自主导航系统应对噪声方差不确定性影响的能力。本专利技术的技术解决方案是:一种基于强化学习的导航滤波器参数优化方法,步骤如下:(1)对基准滤波器、搜索滤波器和导航滤波器进行初始化,为每个滤波器分配初始滤波估计值及相应的估计误差方差阵,根据先验知识设置基准滤波器中的系统噪声方差和测量噪声方差(2)基于不同的系统噪声方差和测量噪声方差组合,对强化学习中的状态集S和相应的动作集A进行初始化;(3)对于状态集S和动作集A中的各个元素,设置状态动作值函数、状态值函数和奖赏初始值,随机选择状态s∈S,作为状态的初始值;(4)基于强化学习中的∈贪心策略,根据状态动作值函数选择动作a∈A,相应地,状态由s转移到s′,对应搜索滤波器中系统噪声方差和测量噪声方差的组合;(5)根据步骤(1)得到的和通过基准滤波器进行递推解算,得到基准滤波器的滤波估计值、估计误差方差阵和测量残差;(6)根据步骤(4)得到的和通过搜索滤波器进行递推解算,得到搜索滤波器的滤波估计值、估计误差方差阵和测量残差;(7)根据步骤(5)得到的基准滤波器的测量残差和步骤(6)得到的搜索滤波器的测量残差计算奖赏;(8)根据步骤(4)得到的和通过导航滤波器进行递推解算,得到导航滤波器的滤波估计值和相应的估计误差方差阵;(9)根据步骤(7)得到的奖赏,利用强化学习中的时序差分方法更新状态动作值函数,对状态值函数和奖赏进行重置;(10)利用步骤(5)得到的基准滤波器的滤波估计值和估计误差方差阵,对搜索滤波器的滤波估计值和估计误差方差阵进行重置;(11)将步骤(4)到步骤(10)进行重复迭代,获得作为导航滤波器设计参数的系统噪声方差和测量噪声方差完成基于强化学习的导航滤波器参数优化。进一步的,所述步骤(1)中,对基准滤波器、搜索滤波器和导航滤波器进行初始化的方法为:其中,和分别表示基准滤波器的初始滤波估计值及相应的估计误差方差阵,和分别表示搜索滤波器的初始滤波估计值及相应的估计误差方差阵,和P0分别表示导航滤波器的初始滤波估计值及相应的估计误差方差阵,可根据有关载体运动的先验知识获得。进一步的,所述步骤(2)中,对强化学习中的状态集S和相应的动作集A进行初始化的方法为:状态集S中的各个元素为不同系统噪声方差和测量噪声方差的组合,动作集中A的各个元素为状态转移的动作,即从选择某一组系统噪声方差和测量噪声方差转向选择另外一组系统噪声方差和测量噪声方差。进一步的,所述步骤(3)中,设置状态动作值函数、状态值函数和奖赏初始值的方法为:对于任何状态s∈S和动作a∈A,设置Q(s,a)←0,V(s)←0,R←0其中,Q(s,a)表示状态动作值函数,V(s)表示状态值函数,R表示奖赏。进一步的,所述步骤(4)中,根据状态动作值函数选择动作的方法为:a←greedy(A,Q(s,a),s,∈)其中,函数greedy(A,Q(s,a),s,∈)表示∈贪心策略,即以∈的概率随机选择在动作集A中选择动作,以1-∈的概率选择使状态动作值函数Q(s,a)最大的动作,∈∈(0,1)为事先设定的随机动作选择概率。进一步的,所述步骤(5)中,通过基准滤波器进行递推解算的方法为:其中,和分别表示k时刻基准滤波器的滤波估计值和相应的误差方差阵,和分别表示k时刻基准滤波器的滤波预测值和相应的预测误差方差阵,yk表示观测量,表示基准滤波器的测量残差,表示基准滤波器的滤波增益阵,滤波参数和通过步骤(1)得到,状态转移矩阵Fk和观测矩阵Hk为已知量,可根据事先建立的导航系统模型得到,I表示单位阵。进一步的,所述步骤(6)中,通过搜索滤波器进行递推解算的方法为:其中,和分别表示k时刻搜索滤波器的滤波估计值和相应的误差方差阵,和分别表示k时刻搜索滤波器的滤波预测值和相应的预测误差方差阵,表示搜索滤波器的测量残差,表示搜索滤波器的滤波增益阵,滤波参数和通过步骤(4)得到。进一步的,所述步骤(7)中,根据测量残差计算奖赏的方法为:进一步的,所述步骤(8)中,通过导航滤波器进行递推解算的方法为:其中,和Pk分别表示k时刻导航滤波器的滤波估计值和相应的误差方差阵,和分别表示k时刻导航滤波器的滤波预测值和相应的预测误差方差阵,表示导航滤波器的测量残差,Kk表示导航滤波器的滤波增益阵。进一步的,所述步骤(9)中,利用时序差分方法更新状态动作值函数的方法为:Q(s,a)←Q(s,a)+α[R+γV(s′)-Q(s,a)]其中,α∈(0,1)为事先设定的学习速本文档来自技高网
...

【技术保护点】
1.一种基于强化学习的导航滤波器参数优化方法,其特征在于步骤如下:/n(1)对基准滤波器、搜索滤波器和导航滤波器进行初始化,为每个滤波器分配初始滤波估计值及相应的估计误差方差阵,根据先验知识设置基准滤波器系统噪声方差

【技术特征摘要】
1.一种基于强化学习的导航滤波器参数优化方法,其特征在于步骤如下:
(1)对基准滤波器、搜索滤波器和导航滤波器进行初始化,为每个滤波器分配初始滤波估计值及相应的估计误差方差阵,根据先验知识设置基准滤波器系统噪声方差和基准滤波器测量噪声方差
(2)基于不同的系统噪声方差和测量噪声方差组合,对强化学习中的状态集S和相应的动作集A进行初始化;
(3)对于状态集S和动作集A中的各个元素,设置状态动作值函数、状态值函数和奖赏初始值,随机选择状态s∈S,作为状态的初始值;
(4)基于强化学习中的∈贪心策略,根据状态动作值函数选择动作a∈A,相应地,状态由s转移到s′,对应搜索滤波器系统噪声方差和搜索滤波器测量噪声方差的组合;
(5)根据步骤(1)得到的知通过基准滤波器进行递推解算,得到基准滤波器的滤波估计值、估计误差方差阵和测量残差;
(6)根据步骤(4)得到的知通过搜索滤波器进行递推解算,得到搜索滤波器的滤波估计值、估计误差方差阵和测量残差;
(7)根据步骤(5)得到的基准滤波器的测量残差和步骤(6)得到的搜索滤波器的测量残差计算奖赏;
(8)根据步骤(4)得到的知通过导航滤波器进行递推解算,得到导航滤波器的滤波估计值和相应的估计误差方差阵;
(9)根据步骤(7)得到的奖赏,利用强化学习中的时序差分方法更新状态动作值函数,对状态值函数和奖赏进行重置;
(10)利用步骤(5)得到的基准滤波器的滤波估计值和估计误差方差阵,对搜索滤波器的滤波估计值和估计误差方差阵进行重置;
(11)将步骤(4)到步骤(10)进行重复迭代,获得的即作为导航滤波器系统噪声方差,获得的即作为导航滤波器测量噪声方差,从而完成基于强化学习的导航滤波器参数优化。


2.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法,其特征在于:所述步骤(1)中,对基准滤波器、搜索滤波器和导航滤波器进行初始化的方法为:






其中,知分别表示基准滤波器的初始滤波估计值及相应的估计误差方差阵,知分别表示搜索滤波器的初始滤波估计值及相应的估计误差方差阵,和P0分别表示导航滤波器的初始滤波估计值及相应的估计误差方差阵,根据有关载体运动的先验知识获得。


3.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法,其特征在于:所述步骤(2)中,对强化学习中的状态集S和相应的动作集A进行初始化的方法为:状态集S中的各个元素为不同系统噪声方差和测量噪声方差的组合,动作集中A的各个元素为状态转移的动作,即从选择某一组系统噪声方差和测量噪声方差转向选择另外一组系统噪声方差和测量噪声方差。


4.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法,其特征在于:所述步骤(3)中,设置状态动作值函数、状态值函数和奖赏初始值的方法为:对于任何状态s∈S和动作a∈A,设置
Q(s,a)←0,V(s)←0,R←0
其中,Q(s,a)表示状态动作值函数,V(s)表示状态值函数,R表示奖赏。


5.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法,其特征在于:所述步骤(4)中,根据状态动作值函数选择动作的方法为:
a...

【专利技术属性】
技术研发人员:熊凯郭建新石恒魏春岭
申请(专利权)人:北京控制工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1