一种基于强化学习的导航滤波器参数优化方法技术

技术编号：23191176 阅读：29 留言：0更新日期：2020-01-24 16:22

本发明专利技术涉及一种基于强化学习的导航滤波器参数优化方法。首先，基于∈贪心策略，根据状态动作值函数选择不同系统噪声和测量噪声方差的组合；同时，通过导航滤波器在应用环境中进行探索，并根据导航滤波器的测量残差计算得到奖赏；进而，根据计算得到的奖赏，利用时序差分方法更新状态动作值函数，其取值反映了所选择的噪声方差与实际应用环境的匹配程度；随着导航滤波过程的进行，通过迭代计算，能够以较大的概率选择与实际应用环境相匹配的噪声方差，从而实现自适应地调整导航滤波器中系统噪声方差和测量噪声方差的目的。所提方法能够增强导航滤波器克服系统噪声和测量噪声方差不确定性影响的能力，改善卫星自主导航精度。

A parameter optimization method of navigation filter based on Reinforcement Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的导航滤波器参数优化方法
本专利技术涉及一种基于强化学习的导航滤波器参数优化方法，属于卫星自主导航

技术介绍
基于卡尔曼滤波理论设计的传统导航滤波器在卫星自主导航
得到广泛应用。众所周知，传统导航滤波器的设计依赖已知的系统噪声方差和测量噪声方差。但是，在解决实际工程问题的过程中，往往会遇到噪声方差存在不确定性的情况。举例来说，在基于星间相对测量的星座卫星自主导航系统中，导航敏感器在轨测量误差特性会受到观测平台姿态抖动、太阳光照条件和空间热环境等因素的影响，考虑在地面试验室模拟空间应用环境的局限性，导航敏感器在实际应用环境中的测量误差特性可能不同于试验室测试的情况。对于系统噪声和测量噪声统计特性的不确定性，基于卡尔曼滤波理论设计的传统导航滤波器不具备自适应能力。在实际噪声方差偏离其标称值的情况下，会导致滤波器性能下降。因此，需要有针对性地改进滤波器的设计，以提升导航系统的性能。针对噪声统计特性不确定性的影响，以往研究中已给出多种策略，主要目的是增强滤波器的自适应能力，其中，具有噪声方差在线估计能力的自适应滤波器得到广泛重视。针对带有系统噪声或测量噪声统计特性不确定性的系统，已提出自适应卡尔曼滤波器(AdaptiveKalmanFilter/AKF)等多种算法。自适应滤波器的问题在于，对于噪声方差存在不确定性的情况，受噪声方差估计与滤波估计误差的耦合影响，使得滤波器的整体性能得不到保证。举例来说，对于所研究的星座卫星自主导航系统，在同时估计噪声方差和卫星位置、速度时，往往会出现自适...

【技术保护点】
1.一种基于强化学习的导航滤波器参数优化方法，其特征在于步骤如下：/n(1)对基准滤波器、搜索滤波器和导航滤波器进行初始化，为每个滤波器分配初始滤波估计值及相应的估计误差方差阵，根据先验知识设置基准滤波器系统噪声方差

【技术特征摘要】
1.一种基于强化学习的导航滤波器参数优化方法，其特征在于步骤如下：
(1)对基准滤波器、搜索滤波器和导航滤波器进行初始化，为每个滤波器分配初始滤波估计值及相应的估计误差方差阵，根据先验知识设置基准滤波器系统噪声方差和基准滤波器测量噪声方差
(2)基于不同的系统噪声方差和测量噪声方差组合，对强化学习中的状态集S和相应的动作集A进行初始化；
(3)对于状态集S和动作集A中的各个元素，设置状态动作值函数、状态值函数和奖赏初始值，随机选择状态s∈S，作为状态的初始值；
(4)基于强化学习中的∈贪心策略，根据状态动作值函数选择动作a∈A，相应地，状态由s转移到s′，对应搜索滤波器系统噪声方差和搜索滤波器测量噪声方差的组合；
(5)根据步骤(1)得到的知通过基准滤波器进行递推解算，得到基准滤波器的滤波估计值、估计误差方差阵和测量残差；
(6)根据步骤(4)得到的知通过搜索滤波器进行递推解算，得到搜索滤波器的滤波估计值、估计误差方差阵和测量残差；
(7)根据步骤(5)得到的基准滤波器的测量残差和步骤(6)得到的搜索滤波器的测量残差计算奖赏；
(8)根据步骤(4)得到的知通过导航滤波器进行递推解算，得到导航滤波器的滤波估计值和相应的估计误差方差阵；
(9)根据步骤(7)得到的奖赏，利用强化学习中的时序差分方法更新状态动作值函数，对状态值函数和奖赏进行重置；
(10)利用步骤(5)得到的基准滤波器的滤波估计值和估计误差方差阵，对搜索滤波器的滤波估计值和估计误差方差阵进行重置；
(11)将步骤(4)到步骤(10)进行重复迭代，获得的即作为导航滤波器系统噪声方差，获得的即作为导航滤波器测量噪声方差，从而完成基于强化学习的导航滤波器参数优化。

2.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法，其特征在于：所述步骤(1)中，对基准滤波器、搜索滤波器和导航滤波器进行初始化的方法为：

其中，知分别表示基准滤波器的初始滤波估计值及相应的估计误差方差阵，知分别表示搜索滤波器的初始滤波估计值及相应的估计误差方差阵，和P0分别表示导航滤波器的初始滤波估计值及相应的估计误差方差阵，根据有关载体运动的先验知识获得。

3.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法，其特征在于：所述步骤(2)中，对强化学习中的状态集S和相应的动作集A进行初始化的方法为：状态集S中的各个元素为不同系统噪声方差和测量噪声方差的组合，动作集中A的各个元素为状态转移的动作，即从选择某一组系统噪声方差和测量噪声方差转向选择另外一组系统噪声方差和测量噪声方差。

4.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法，其特征在于：所述步骤(3)中，设置状态动作值函数、状态值函数和奖赏初始值的方法为：对于任何状态s∈S和动作a∈A，设置
Q(s，a)←0，V(s)←0，R←0
其中，Q(s，a)表示状态动作值函数，V(s)表示状态值函数，R表示奖赏。

5.根据权利要求1所述的一种基于强化学习的导航滤波器参数优化方法，其特征在于：所述步骤(4)中，根据状态动作值函数选择动作的方法为：
a...

【专利技术属性】
技术研发人员：熊凯，郭建新，石恒，魏春岭，
申请(专利权)人：北京控制工程研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人