多维测井数据异常值智能剔除的方法与系统技术方案

技术编号:39177637 阅读:11 留言:0更新日期:2023-10-27 08:25
本发明专利技术属于地质测量领域,具体涉及了一种多维测井数据异常值智能剔除的方法与系统,旨在解决现有技术中异常数据较多难以实现钻进过程中的稳定的参数获取的问题。本发明专利技术包括:获取多维测井曲线;通过Umap将为算法进行降维获得二维测井曲线数据;建立多维测井曲线与二维测井曲线的第一数据点索引;基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;基于所述第一数据点索引和有效测井数据,获取第二数据点索引;找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。本发明专利技术实现异常值数据点的剔除同时还提高了异常值剔除的计算速度。了异常值剔除的计算速度。了异常值剔除的计算速度。

【技术实现步骤摘要】
多维测井数据异常值智能剔除的方法与系统


[0001]本专利技术属于地质测量领域,具体涉及了一种多维测井数据异常值智能剔除的方法与系统。

技术介绍

[0002]地球物理资料为构建详细的地质模型提供了丰富的地层参数。其中,多维测井曲线数据反映了地层岩性、物性、电性的详细信息,地层分辨率可达0.5m。目前基于人工解释与机器学习算法可详细判别垂向岩性分布。为了实现智能、快速的地层识别与划分,定位目的层段,研究人员所建立的算法模型愈加复杂,受输入的异常数据影响较大。为了确保算法运行中的稳定性,需要建立合适的算法模型对多维测井曲线进行异常值剔除,使得输入训练集数据更有效地指导算法模型更新。因此,本专利将原始多维测井数据作为输入,采用机器学习降维算法确定原始数据点类别作为参考,实现孤立森林算法超参数的准确拾取,从而快速进行大量的多维测井数据异常值剔除。

技术实现思路

[0003]为了解决现有技术中的上述问题,即现有技术中异常数据较多难以实现钻进过程中的稳定的参数获取的问题,本专利技术提供了一种多维测井数据异常值智能剔除的方法,所述方法包括:步骤S100,获取多维测井曲线;步骤S200,基于所述多维测井曲线,通过Umap将为算法进行降维获得二维测井曲线数据;步骤S300,基于所述二维测井曲线数据,建立多维测井曲线与二维测井曲线的第一数据点索引;步骤S400,基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;步骤S500,基于所述第一数据点索引和有效测井数据,获取第二数据点索引;步骤S600,基于所述第二数据点索引,找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。
[0004]在一些优选的实施方式中,所述多维测井曲线,包括:放射性GR、自然电位SP、井径CAL、密度DEN、中子CNL、孔隙度POR、深测向电阻率RD和浅测向电阻率RS。
[0005]在一些优选的实施方式中,所述步骤S200,具体包括:构建局部连接:确定超参数:local_connectivity(邻接点数目的下限)将这些最近的邻接点设置权重为100%,表示这些点完全相关。
[0006]步骤S210,确定Umap降维模型的超参数,包括邻接点数目的下限local_connectivity和近邻点数目n_neighbors;近邻点数目为指定每个数据点包含多少近邻点;步骤S220,将邻接点数目的下限中包含的邻接点设置权重为100%;
将与当前数据点最接近的n_neighbors个近邻作为模糊区域,将模糊区域中的近邻的权重随距离变化,非邻接点和非近邻点的数据点的权重设置为0;所述将模糊区域中的数据点的权重随距离变化具体为:;表示第j个样本点与最接近的近邻点之间的距离,表示根据第i个样本点与第j个样本点之间的距离预设的参数,第i个样本点表示任一样本点,表示样本点j关于样本点i的权重,表示第i个样本点的值,表示第j个样本点的值,表示距离;步骤S230,合并数据点的边缘权重:;表示样本点j关于样本点i的权重,表示样本点i关于样本点j的权重,表示样本点j和i的边缘权重;获得权重邻接图;步骤S240,基于所述权重邻接图,设置交叉熵目标函数,并通过随机梯度下降算法调整模型参数,直至目标函数达到预设的阈值,获得二维测井曲线数据。
[0007]在一些优选的实施方式中,所述步骤S240,具体包括:步骤S241,基于所述权重邻接图,确定最小距离超参数min_dist,表示低维空间中两个点的最近距离;步骤S242,基于所述最小距离超参数min_dist,构建交叉熵目标函数:;表示交叉熵目标函数的值,表示从所选取epoch样本集中选取的两个样本点i和j,表示所选取epoch样本集,表示样本点i、j的边缘权重;表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离;所述边缘权重包含方向信息;;a和b表示根据最小距离超参数min_dist确定的参数;;其中,表示样本点j在低维空间的坐标,表示样本点i在低维空间的坐标;步骤S243,通过随机梯度下降算法调整模型参数,直至目标函数达到预设的阈值,获得二维测井曲线数据。
[0008]在一些优选的实施方式中,所述第一数据点索引,具体为在多维测井曲线中的数据点与二维测井曲线的数据点中一一对应的映射。
[0009]在一些优选的实施方式中,所述步骤S400,具体包括:步骤S410,从二维测井曲线数据中随机抽取个数据点构成待处理数据子集存入根节点;步骤S420,从二维测井曲线数据中随机选定一个维度q,在维度q中随机产生一个切割点p;其中切割点p满足,j表示序号;步骤S430,根据切割点p生成将维度q中数据划分为两个子空间的超平面,指定数值小于p的维度q的数据点放入第一叶子节点,数值大于或等于p的数据点放入第二叶子节点;步骤S440,递归步骤S420至步骤S430所述的方法,直至所有的叶子节点都只有一个数据点或孤立树已经达到预设的高度;步骤S450,重复步骤S420至步骤S440所述的方法,直至生成T个孤立树;其中,T个孤立树表示:孤立树没有叶子节点的外部节点,或有两个叶子节点和一个内部节点test;在T个孤立树的内部节点test由维度q和一个分割点p组成,q<p的点属于,反之属于;步骤S460,所述T个孤立树即为孤立树森林,令每个数据点遍历每一个孤立树,计算数据点在每一个孤立树的高度即数据点从所在孤立树的根节点到叶子节点经过的边的数量;从而计算数据点在孤立树森林中的平均高度,对所有数据点的平均高度做归一化处理,获得归一化的数据点平均高度;步骤S470,基于所述归一化的数据点平均高度,计算异常值分数:;其中,表示个数据点所构建的二叉树路径长度的平均值,E(*)表示期望;;其中,表示调和数,通过估算,0.5772156649为欧拉常数;当所述异常值分数小于预设的异常值阈值s时,将对应的数据点剔除,获得有效测井数据,,表示有效测井数据中的数据点数。
[0010]在一些优选的实施方式中,所述步骤S500,具体包括:将所述有效测井数据存在的第一数据点索引设置为第二数据点索引。
[0011]本专利技术的另一方面,提出了一种多维测井数据异常值智能剔除的系统,所述系统包括:多维曲线获取模块,配置为获取多维测井曲线;曲线降维模块,配置为基于所述多维测井曲线,通过Umap将为算法进行降维获得二维测井曲线数据;第一数据点索引建立模块,配置为基于所述二维测井曲线数据,建立多维测井曲线与二维测井曲线的第一数据点索引;异常值剔除模块,配置为基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;第二数据点索引获取模块,配置为基于所述第一数据点索引和有效测井数据,获取第二数据点索引;二次剔除模块,配置为基于所述第二数据点索引,找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。
[0012]本专利技术的有益效果:(1)本专利技术通过基于机器学习的降维算法快速抓取多维测井曲线的主要信息,并且本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多维测井数据异常值智能剔除的方法,其特征在于,所述方法包括:步骤S100,获取多维测井曲线;步骤S200,基于所述多维测井曲线,通过Umap将为算法进行降维获得二维测井曲线数据;步骤S300,基于所述二维测井曲线数据,建立多维测井曲线与二维测井曲线的第一数据点索引;步骤S400,基于所述二维测井曲线数据,通过孤立森林算法进行异常值处理,获得有效测井数据;步骤S500,基于所述第一数据点索引和有效测井数据,获取第二数据点索引;步骤S600,基于所述第二数据点索引,找到多维测井曲线中存在第二数据点索引的标记数据点,将标记数据点的集合记为标准测井曲线数据。2.根据权利要求1所述的多维测井数据异常值智能剔除的方法,其特征在于,所述多维测井曲线,包括:放射性GR、自然电位SP、井径CAL、密度DEN、中子CNL、孔隙度POR、深测向电阻率RD和浅测向电阻率RS。3.根据权利要求1所述的多维测井数据异常值智能剔除的方法,其特征在于,所述步骤S200,具体包括:步骤S210,确定Umap降维模型的超参数,包括邻接点数目的下限local_connectivity和近邻点数目n_neighbors;步骤S220,将邻接点数目的下限中包含的邻接点设置权重为100%;将与当前数据点最接近的n_neighbors个近邻作为模糊区域,将模糊区域中的近邻的权重随距离变化,非邻接点和非近邻点的数据点的权重设置为0;所述将模糊区域中的数据点的权重随距离变化具体为:;表示第j个样本点与最接近的近邻点之间的距离,表示根据第i个样本点与第j个样本点之间的距离预设的参数,第i个样本点表示任一样本点,表示样本点j关于样本点i的权重,表示第i个样本点的值,表示第j个样本点的值,表示距离;步骤S230,合并数据点的边缘权重:;表示样本点j关于样本点i的权重,表示样本点i关于样本点j的权重,表示样本点ji的边缘权重;获得权重邻接图;步骤S240,基于所述权重邻接图,设置交叉熵目标函数,并通过随机梯度下降算法调整模型参数,直至目标函数达到预设的阈值,获得二维测井曲线数据。4.根据权利要求3所述的多维测井数据异常值智能剔除的方法,其特征在于,所述步骤S240,具体包括:步骤S241,基于所述权重邻接图,确定最小距离超参数min_dist,表示低维空间中两个
点的最近距离;步骤S242,基于所述最小距离超参数min_dist,构建交叉熵目标函数:;表示交叉熵目标函数的值,表示从所选取epoch样本集中选取的两个样本点i和j,表示所选取epoch样本集,表示样本点i和j的边缘权重,表示第i个样本点在低维空间中对应的数据点与第j个样本点在低维空间中对应的数据点之间的距离;所述边缘权重包含方向信息;;a和b表示根据最小距离超参数min_dist确定的参数;;其中,表示样本点在低维空间的坐标,表示样本点i在低维空间的坐标;步骤S243,通过随机梯度...

【专利技术属性】
技术研发人员:田飞张江云底青云郑文浩杨永友郑健曹文静
申请(专利权)人:中国科学院地质与地球物理研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1