当前位置: 首页 > 专利查询>中北大学专利>正文

一种基于深度强化学习的地下浅层目标快速定位方法技术

技术编号:37132125 阅读:18 留言:0更新日期:2023-04-06 21:30
本发明专利技术涉及一种基于深度强化学习的地下浅层目标快速定位方法,属于地下浅层震源定位技术领域。本发明专利技术结合了深度神经网络算法和强化学习算法,通过对地声传感器采集到的一维信号进行跨域升维,以多谱三维能量场作为深度强化学习的状态空间,利用马尔科夫决策过程进行问题建模,并采用C

【技术实现步骤摘要】
一种基于深度强化学习的地下浅层目标快速定位方法


[0001]本专利技术属于地下浅层震源定位
,具体涉及一种基于深度强化学习的地下浅层目标快速定位方法。

技术介绍

[0002]地下浅层目标定位主要是通过布设在地表或地下浅层空间内的传感器阵列收集有效信号(包括空声信号、震动信号和地声信号),利用有源或无源定位方法,实现对震源目标的定位。地下浅层目标定位属于地震深层定位的特殊应用场景,快速准确获取地下目标的爆炸位置信息,对于快速评估井下事故危险程度、深侵彻武器制导精确度以及核爆监测等多方面具有非常重要的意义。
[0003]近年来,随着大数据、人工智能技术和计算机硬件的高速发展,深度学习和强化学习成为地下浅层目标定位领域的研究热点。
[0004]基于深度学习的定位方法:主要是利用深度学习消除信号噪声、检测地震波形、拾取震相特征(包括信号检测、到时估计和震相识别等部分),利用基于到时和波形信息的方法完成对震源的定位。但缺点是需要依赖于大量、高质量的震源数据,消耗长久的时间学习建模,实际工况下,低信噪比震源数据和高复杂度介质环境导致模型学习效率低,且存在收敛速度慢、鲁棒性差、泛化性差等问题。
[0005]基于强化学习的定位方法:较为常用的主要是基于DQN(Deep Q

learning Network)学习框架,利用其结构中的深度神经网络和经验重放技术来映射高维度的状态和动作,并将学习经验存储在重放缓存区中以打乱样本的时间差分相关性,提高学习效率。但缺点是学习速度较慢,且无法对整个环境状态空间进行主动全面搜索定位,容易陷入局部收敛,导致震源定位速度慢、甚至无法定位。

技术实现思路

[0006](一)要解决的技术问题
[0007]本专利技术要解决的技术问题是如何提供一种基于深度强化学习的地下浅层目标快速定位方法,以解决现有技术方法中智能体无法对环境进行全面搜索且需要较长时间定位目标位置的问题。
[0008](二)技术方案
[0009]为了解决上述技术问题,本专利技术提出一种基于深度强化学习的地下浅层目标快速定位方法,该方法包括如下步骤:
[0010]S1、多谱三维能量场逆时重建:将地声传感器阵列采集到的一维地声信号,通过信号互相关处理映射生成包含震源信息的多谱三维能量场;
[0011]S2、马尔科夫决策过程模型搭建:将震源定位问题建模为马尔科夫决策过程;
[0012]S3、好奇心驱动深度强化学习模型搭建:采用好奇心驱动DQN(C

DQN)算法解决马尔科夫决策过程,构造地下浅层目标的深度强化学习快速定位模型;
[0013]S4、完成目标定位。
[0014](三)有益效果
[0015]本专利技术提出一种基于深度强化学习的地下浅层目标快速定位方法,本专利技术提出的基于好奇心驱动深度强化学习的地下浅层目标定位方法的技术特点及有益效果:
[0016]为了实现对地下浅层目标快速定位的应用,本专利技术结合了深度神经网络算法和强化学习算法,通过对地声传感器采集到的一维信号进行跨域升维,以多谱三维能量场作为深度强化学习的状态空间,利用马尔科夫决策过程进行问题建模,并采用C

DQN算法实现目标的快速定位。与现有的仅由环境产生外部奖励加强的传统深度强化学习方法不同,C

DQN通过外部奖励和内部奖励的联合加强,利用内在好奇心模块充分提高搜索效率,保证收敛至全局最优。利用具有高效搜索性保证的C

DQN算法框架在异步策略设置下进行地下浅层目标定位,可以大大提高定位速度。
[0017]本方法具有以下有益效果:
[0018]本专利技术中用于地下浅层目标的好奇心驱动深度强化学习快速定位方法,其好奇心网络中的内在好奇心模块能够提供内部奖励,充分提高搜索效率,快速完成目标定位,整个过程没有无效搜索动作,且不需要人工参与。
[0019]本专利技术中提出的地下浅层目标快速定位方法,针对不同的目标定位任务,只需要训练不同的好奇心驱动DQN网络,算法具有优秀的鲁棒性和泛化性。
[0020]本专利技术中提出的地下浅层目标快速定位方法,与现有的技术方法相比,在实现快速定位的同时,算法的探索能力、学习速度都有了显著提升。
附图说明
[0021]图1为本专利技术的模拟环境说明图;
[0022]图2为本专利技术的基于好奇心驱动深度强化学习(C

DQN)的地下浅层目标定位算法结构图。
具体实施方式
[0023]为使本专利技术的目的、内容和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。
[0024]本专利技术公开了一种基于好奇心驱动深度强化学习的地下浅层目标快速定位方法,属于地下浅层震源定位
,也可推广到地震/地质结构勘测、灾害预测与快速评估、地下空间资源规划利用以及考古等领域的应用。
[0025]本专利技术提出一种基于好奇心驱动深度强化学习的地下浅层目标快速定位方法,用以解决现有技术方法中智能体无法对环境进行全面搜索且需要较长时间定位目标位置的问题,利用好奇心驱动DQN(Curiosity

driven DQN,简称C

DQN)的优秀探索机制实现对地下浅层目标的快速定位。
[0026]本专利技术提出一种基于好奇心驱动深度强化学习的地下浅层目标快速定位方法,其特征在于,具体包括以下设计步骤:
[0027]S1、多谱三维能量场逆时重建:将地声传感器阵列采集到的一维地声信号,通过信号互相关处理映射生成包含震源信息的多谱三维能量场;
[0028]S2、马尔科夫决策过程模型搭建:将震源定位问题建模为马尔科夫决策过程;
[0029]S3、好奇心驱动深度强化学习模型搭建:采用好奇心驱动DQN(C

DQN)算法解决马尔科夫决策过程,构造地下浅层目标的深度强化学习快速定位模型;
[0030]S4、完成目标定位。
[0031]实施例1:
[0032]本专利技术提出了一种基于好奇心驱动深度强化学习的地下浅层目标快速定位方法,具体包括以下设计步骤:
[0033]S1.多谱三维能量场逆时重建,具体设计步骤如下:
[0034]S1.1布设分布式地声传感器阵列:选取监测区域中心位置设为坐标原点O,将地声传感器以方形等间距布设方式布设于地表,并获取各地声传感器坐标信息(x
i
,y
i
,z
i
)(i=1,2,3,

,N),其中N为传感器布设数量;
[0035]S1.2网格离散化:将长宽高分别为l、w、h的监测区域离散化处理,根据定位精度和计算规模要求采用几何尺寸相同的长方体(Δx,Δy,Δz)划分网格,其中,Δx、Δy、Δz分别代表每个网格单元的长宽高;
[0036]S1.3数据预处理:对地声传感器采集到的一维信号进行预处理,包括去除本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的地下浅层目标快速定位方法,其特征在于,该方法包括如下步骤:S1、多谱三维能量场逆时重建:将地声传感器阵列采集到的一维地声信号,通过信号互相关处理映射生成包含震源信息的多谱三维能量场;S2、马尔科夫决策过程模型搭建:将震源定位问题建模为马尔科夫决策过程;S3、好奇心驱动深度强化学习模型搭建:采用好奇心驱动DQN(C

DQN)算法解决马尔科夫决策过程,构造地下浅层目标的深度强化学习快速定位模型;S4、完成目标定位。2.如权利要求1所述的基于深度强化学习的地下浅层目标快速定位方法,其特征在于,所述步骤S1具体包括如下步骤:S1.1布设分布式地声传感器阵列:选取监测区域中心位置设为坐标原点O,将地声传感器以方形等间距布设方式布设于地表,并获取各地声传感器坐标信息(x
i
,y
i
,z
i
),i=1,2,3,

,N,其中N为传感器布设数量;S1.2网格离散化:将长宽高分别为l、w、h的监测区域离散化处理,根据定位精度和计算规模要求采用几何尺寸相同的长方体(Δx,Δy,Δz)划分网格,其中,Δx、Δy、Δz分别代表每个网格单元的长宽高;S1.3数据预处理:对地声传感器采集到的一维信号进行预处理;S1.4走时偏移处理:通过距离与地声传播速度计算得到每个网格点到各个传感器的走时信息,再根据波形互易性原理,将每个传感器获取的一维信号按照对应网格点的走时信息进行反向偏移;S1.5信号互相关处理:依据时间一致性成像原理,将针对某一网格点偏移得到的传感器波形两两之间进行互相关处理,并将所有的互相关波形进行振幅叠加,以此作为该网络点的能量值;即其中X代表监测区域内的某一网格点,C(R
i
(X),R
j
(X))表示第i个传感器和第j个传感器在该网格点处得到的互相关波形;对于目标监测区域中的某个网格点,共有组互相关叠加结果;S1.6生成多谱三维能量场:依次遍历监测区域内的所有网格点,直至得到所有网格点对应的能量,即可得到多谱三维逆时聚焦图像。3.如权利要求2所述的基于深度强化学习的地下浅层目标快速定位方法,其特征在于,所述步骤S1.3的预处理包括:去除线性趋势、5~70Hz带通滤波和归一化处理操作。4.如权利要求2所述的基于深度强化学习的地下浅层目标快速定位方法,其特征在于,所述步骤S2具体包括如下步骤:S2.1、设计状态空间S:状态空间为S1.6生成的多谱三维能量场中每个网格的能量值;S2.2、设计动作空间A:为模拟震源agent的移动方向,也就是对真实震源的搜索方向;S2.3、设计奖励函数R;S2.4、设计状态转移概率P。5.如权利要求4所述的基于深度强化学习的地下浅层目标快速定位方法,其特征在于,
所述步骤S2.2中,移动方向包括以下动作内容:向上移动+Z方向、向下移动

Z方向、向右移动+X方向、向左移动

X方向、向前移动+Y方向以及向后移动

Y方向。6.如权利要求4所述的基于深度强化学习的地下浅层目标快速定位方法,其特征在于,所述步骤S2.3具体包括:S2.3.1、震源位置S(X
s
,Y
s
,Z
s
)已知,设模拟震源agent在t时刻的坐标位置为S'(X
s'
,Y
s'
,Z
s'
),其与真实震源的距离设为D(t),即有:S2.3.2、设置监测区域三维空间O

xyz的边界约束条件:X
min
≤X
S'
≤X
max
,Y
min
≤Y
S'
≤Y
max
,Z
min
≤Z
S'
≤0;S2.3.3、计算t时刻执行当前动作...

【专利技术属性】
技术研发人员:王黎明武丹
申请(专利权)人:中北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1