一种基于强化学习补偿滤波的救援协同定位方法及系统技术方案

技术编号:39844485 阅读:13 留言:0更新日期:2023-12-29 16:35
本发明专利技术涉及协同定位技术领域,特别是指一种基于强化学习补偿滤波的救援协同定位方法及系统

【技术实现步骤摘要】
一种基于强化学习补偿滤波的救援协同定位方法及系统


[0001]本专利技术涉及协同定位
,特别是指一种基于强化学习补偿滤波的救援协同定位方法及系统


技术介绍

[0002]在突发应急救援事件中,搜索者对周围环境获得的先验知识非常有限,对搜索过程提出了重大考验

在协同搜索过程中,一旦能够获得目标的有效定位信息,便可对救援目标进行持续的定位与跟踪,定位的准确性直接影响后续救援路径规划和救援活动的效率

实时可靠的定位在探测救援目标方向和规划救援路径方面起着关键作用,为后续正确决策和采取相应措施提供有力保证

[0003]在高动态变化的环境中,协同技术可以将个体采集的感知信息进行融合,通过智能体间的相互通信获得群体目标节点间的信息增益

为了满足高精度和实时性的要求,研究人员一直在探索各种协同定位方法,其中超宽带和惯性测量单元协同定位技术因其独特优势而受到广泛关注

[0004]然而,超宽带(
Ultra

Wideband

/
惯性测量单元(
Inertial Measurement Unit
)(简称“UWB/IMU”)协同定位仍然面临一些挑战和不足之处,需要进一步解决

首先,初始定位是一个关键问题,特别是在没有先验信息或参考基站的情况下

准确的初始定位对于后续的协同定位算法和系统性能至关重要
。<br/>其次,
UWB

IMU
之间存在误差累积和智能体间误差分配不一致性问题,需要寻找优化方法来降低协同误差并提高整体定位精度

现有的协同定位方法在良好校准的实验条件下表现良好,但在更复杂的动力学环境中并不可靠

由于对初始状态估计非常敏感且初始估计依赖经验选择,难以保证准确性

在复杂的未知环境中,噪声分布并不是一成不变的,导致环境模型结构在不断变化,需要不断调整滤波器增益

若不考虑增益调整的问题,估计性能会缓慢收敛或发散

[0005]在现有技术中,缺乏一种基于强化学习补偿滤波的准确度高且鲁棒性强的救援协同定位方法


技术实现思路

[0006]本专利技术实施例提供了一种基于强化学习补偿滤波的救援协同定位方法及系统

所述技术方案如下:
[0007]一方面,提供了一种基于强化学习补偿滤波的救援协同定位方法,该方法由电子设备实现,该方法包括:
[0008]通过微型无人机进行数据采集,获得自信息以及观测信息;
[0009]根据所述自信息以及观测信息,通过扩展卡尔曼滤波算法,获得初步位置估计;
[0010]根据所述初步位置估计,采用强化学习方法对所述扩展卡尔曼滤波算法进行滤波增益补偿,获得局部定位结果;
[0011]根据所述局部定位结果以及预设的策略网络,对中心评价网络进行更新,获得更
新评价网络;
[0012]根据所述局部定位结果,通过所述更新评价网络以及预设的策略网络,获得更新动作;
[0013]根据所述更新动作,对所述局部定位结果进行修正,获得精确定位结果;
[0014]根据所述精确定位结果进行救援路线规划

[0015]可选地,所述根据所述自信息以及观测信息,通过扩展卡尔曼滤波算法,获得初步位置估计,包括:
[0016]根据所述自信息以及观测信息进行计算,得到先验估计值;
[0017]根据所述先验估计值以及所述观测信息对先验估计值进行更新,获得初步位置估计

[0018]可选地,所述根据所述初步位置估计,采用强化学习方法对所述扩展卡尔曼滤波算法进行滤波增益补偿,获得局部定位结果,包括:
[0019]将所述扩展卡尔曼滤波算法以及多层感知机进行参数关联,获得参数优化模型;
[0020]根据所述初步位置估计,通过所述参数优化模型,获得卡尔曼滤波增益;
[0021]根据所述初步位置估计以及所述卡尔曼滤波增益进行计算,得到局部定位结果

[0022]可选地,所述根据所述局部定位结果以及预设的策略网络,对中心评价网络进行更新,获得更新评价网络,包括:
[0023]将所述局部定位结果输入预设的策略网络,获得无人机动作值;
[0024]根据所述无人机动作值,获得对应动作;
[0025]基于所述观测信息以及所述对应动作对中心评价网络进行更新,获得更新评价网络

[0026]可选地,所述根据所述局部定位结果,通过所述更新评价网络以及预设的策略网络,获得更新动作,包括:
[0027]基于所述更新评价网络对预设的策略网络进行优化,获得优化策略网络;
[0028]将所述局部定位结果输入所述优化策略网络,获得更新动作值;
[0029]根据所述更新动作值,获得更新动作

[0030]可选地,所述根据所述更新动作,对所述局部定位结果进行修正,获得精确定位结果,包括:
[0031]根据所述更新动作,获得动作调整方向以及动作调整位移;
[0032]根据所述动作调整方向

所述动作调整位移和所述局部定位结果进行计算,得到精确定位结果

[0033]另一方面,提供了一种基于强化学习补偿滤波的救援协同定位系统,该系统应用于实现一种基于强化学习补偿滤波的救援协同定位方法,所述一种基于强化学习补偿滤波的救援协同定位方法包括微型无人机和电子设备,其中:
[0034]所述微型无人机,用于通过微型无人机进行数据采集,获得自信息以及观测信息;
[0035]所述电子设备,用于根据所述自信息以及观测信息,通过扩展卡尔曼滤波算法,获得初步位置估计;根据所述初步位置估计,采用强化学习方法对所述扩展卡尔曼滤波算法进行滤波增益补偿,获得局部定位结果;根据所述局部定位结果以及预设的策略网络,对中心评价网络进行更新,获得更新评价网络;根据所述局部定位结果,通过所述更新评价网络
以及预设的策略网络,获得更新动作;根据所述更新动作,对所述局部定位结果进行修正,获得精确定位结果;根据所述精确定位结果进行救援路线规划

[0036]可选地,所述电子设备,进一步用于:
[0037]根据所述自信息以及观测信息进行计算,得到先验估计值;
[0038]根据所述先验估计值以及所述观测信息对先验估计值进行更新,获得初步位置估计

[0039]可选地,所述电子设备,进一步用于:
[0040]将所述扩展卡尔曼滤波算法以及多层感知机进行参数关联,获得参数优化模型;
[0041]根据所述初步位置估计,通过所述参数优化模型,获得卡尔曼滤波增益;
[0042]根据所述初步位本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习补偿滤波的救援协同定位方法,其特征在于,所述方法包括:通过微型无人机进行数据采集,获得自信息以及观测信息;根据所述自信息以及观测信息,通过扩展卡尔曼滤波算法,获得初步位置估计;根据所述初步位置估计,采用强化学习方法对所述扩展卡尔曼滤波算法进行滤波增益补偿,获得局部定位结果;根据所述局部定位结果以及预设的策略网络,对中心评价网络进行更新,获得更新评价网络;根据所述局部定位结果,通过所述更新评价网络以及预设的策略网络,获得更新动作;根据所述更新动作,对所述局部定位结果进行修正,获得精确定位结果;根据所述精确定位结果进行救援路线规划
。2.
根据权利要求1所述的一种基于强化学习补偿滤波的救援协同定位方法,其特征在于,所述根据所述自信息以及观测信息,通过扩展卡尔曼滤波算法,获得初步位置估计,包括:根据所述自信息以及观测信息进行计算,得到先验估计值;根据所述先验估计值以及所述观测信息对先验估计值进行更新,获得初步位置估计
。3.
根据权利要求1所述的一种基于强化学习补偿滤波的救援协同定位方法,其特征在于,所述根据所述初步位置估计,采用强化学习方法对所述扩展卡尔曼滤波算法进行滤波增益补偿,获得局部定位结果,包括:将所述扩展卡尔曼滤波算法以及多层感知机进行参数关联,获得参数优化模型;根据所述初步位置估计,通过所述参数优化模型,获得卡尔曼滤波增益;根据所述初步位置估计以及所述卡尔曼滤波增益进行计算,得到局部定位结果
。4.
根据权利要求1所述的一种基于强化学习补偿滤波的救援协同定位方法,其特征在于,所述根据所述局部定位结果以及预设的策略网络,对中心评价网络进行更新,获得更新评价网络,包括:将所述局部定位结果输入预设的策略网络,获得无人机动作值;根据所述无人机动作值,获得对应动作;基于所述观测信息以及所述对应动作对中心评价网络进行更新,获得更新评价网络
。5.
根据权利要求1所述的一种基于强化学习补偿滤波的救援协同定位方法,其特征在于,所述根据所述局部定位结果,通过所述更新评价网络以及预设的策略网络,获得更新动作,包括:基于所述更新评价网络对预设的策略网络进行优化,获得优化策略网络;将所述局部定位结果输入所述优化策略网络,获得更新动作值;根据所述更新动作值,获得更新动作
...

【专利技术属性】
技术研发人员:王然徐诚孙敬段世红张晓彤
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1