一种基于改进随机森林算法的地质构造识别技术制造技术

技术编号:37558119 阅读:8 留言:0更新日期:2023-05-15 07:41
本发明专利技术公开了一种基于改进随机森林算法地质构造识别技术,首先对三维地震勘探得到的包含多种地震属性的数据集进行预处理;选定随机森林参数对,利用改进分步长网格搜索对随机森林参数进行寻优,确定最优参数对;利用预处理后的地震属性数据集对改进的随机森林分类模型进行训练,通过模型评估指标结果分析,得到最优随机森林算法识别模型;将得到的识别模型用于地质构造识别,经可视化处理得到构造识别结果分布图;本发明专利技术解决了地质构造识别中对地震属性数据集要求较高且数据处理较复杂的问题,提高了识别的准确率,适用于三维地震勘探中对陷落柱、断层构造的识别。断层构造的识别。断层构造的识别。

【技术实现步骤摘要】
一种基于改进随机森林算法的地质构造识别技术


[0001]本专利技术属于地震勘探领域,具体涉及一种基于改进随机森林算法的地质构造识别技术。

技术介绍

[0002]随着煤炭资源向深部开采,煤层开采难度增大,各种复杂的地质构造严重影响煤矿开采人员安全。地震属性就是经过数学变换而导出的有关地震波的几何形态、运动学特征、动力学特征和统计学特征,通过对地震属性进行分析,并做出标定,消除畸变,就有可能揭示异常体(构造)信息。然而地下地质情况的复杂性和地震信息的影响因素太多,存在较大的不确定性或模糊性,应用任何单一的地震属性都不能准确地进行构造识别,开展地震多属性融合分析就显得十分必要。
[0003]地震属性融合的研究有很多种,Balch于1971年将地震资料用彩色进行显示,提高了对地下地质异常的识别能力。2002年,我国乐友喜教授优先将聚类分析的方法应用于地震属性融合,多元线性回归法也可以用于属性融合(季玉新和欧钦,2003)。随着大数据时代的来临,目前发展较快的是基于地震属性数据的融合,即通过数学统计、人工智能等方式提取最优地震属性,如2010年,曹琳昱首次将基于粒子群优化的BP网络技术应用于多属性融合中。神经网络融合属性法识别速度很快,并且自适应性以及容错能力强,该方法适用范围广;但这种方法不能自主优选属性,同时需要足够的样本数据来对网络进行训练;2012年,Bruno 将PCA用于断层识别,通过对地震属性进行PCA融合,得到了融合后的新属性,对于微小断层识别的准确度有了较大的提高;但是PCA是一种线性降维方法,当数据中存在非线性关系的时候,PCA的效果会大打折扣;2017年,孙振宇将SVM算法用于地震小断层识别,SVM 模型融合各属性预测断层的优势,从不同的角度挖掘断层信息,降低了解释人员主观因素对解释结果的影响,但是在构建SVM模型时,模型本身的结构直接影响模型识别准确率,且地震属性的选择对模型准确率影响也很大。
[0004]近年来,地震属性融合技术发展迅速,已广泛应用于储层预测、砂体预测、构造识别等各个领域。在地震属性融合过程中,需要选择一种准确率高并且适用于多种样本数据集的算法,更有效地对地震属性数据进行解释,提高构造识别模型的准确率。
[0005]本专利技术针对现有构造识别研究中对地震属性数据集要求较高且数据处理较复杂的问题,基于经典的机器学习随机森林算法,提出了一种改进的随机森林算法,将地震多属性融合技术与改进的随机森林算法结合,建立了基于改进随机森林算法的地质构造识别模型。

技术实现思路

[0006]随机森林算法作为一种高度灵活的算法近年来广受欢迎,拥有广泛的应用前景。在当前所有的算法中,作为一种集成算法的随机森林算法本身精度比大多数单个算法好,准确性高,且对数据集的要求不高,适用于多种数据集(线性与非线性、高维数据集等)。随
机森林算法流程如图2所示,通过Bagging(集成)方法,生成彼此之间互不相同的训练样本集,该算法主要用于分类和回归,本专利技术中利用随机森林分类算法进行地质构造识别。
[0007]随机森林算法的随机性在于两个方面:一是每棵树的训练样本是随机的,二是树中每个节点的分裂属性集合也是随机选择确定的。正因为这两个随机性,随机森林对噪声数据不敏感,克服了过拟合的问题。但是目前为止,对随机森林中决策树的数量k、单棵决策树的最大特征数m等参数进行优化与选择的研究还比较少,一般情况下都是通过经验选择参数,往往可能不是最优参数,所以关键是如何选择最优的特征个数。
[0008]本专利技术针对上述问题,提出一种改进的网格搜索算法,利用改进的分步长网格搜索对随机森林算法模型中参数进行寻优,选取最优参数值,提高模型识别的准确率,克服以往依据经验选择参数的缺点,通过模型评估指标结果分析,得到最优随机森林算法识别模型;并利用得到的算法模型进行地质构造识别;本专利技术适用于三维地震勘探中对陷落柱、断层构造的识别。
[0009]本专利技术首先对三维地震勘探得到的包含多种地震属性的数据集进行预处理,确定适合后续地质构造识别模型的属性,利用预处理后的地震属性数据集作为随机森林分类模型输入;其次选定随机森林参数对,利用改进的分步长网格搜索对算法模型进行参数寻优,选择随机森林分类器数量(n_estimators)与单棵决策树的最大特征数(max_features)这两个参数组成参数对进行分步长网格搜索寻优;且首先进行大步长搜索,之后进行小步长搜索确定最优参数对。
[0010]利用预处理后的地震属性数据集对改进的随机森林分类模型进行训练,通过模型评估指标结果分析以及与经典随机森林算法模型对比,得到最优随机森林算法构造识别模型;利用逻辑回归,决策树,GBDT机器学习算法模型进行对比实验,通过正确率(Accuracy)、准确率(Precision)和f1 score评估指标验证本模型的识别效果;最后将得到的构造识别模型分别用于实验矿区和验证矿区进行地质构造识别,经可视化处理得到构造识别结果分布图。具体步骤如下:
[0011]1.一种基于改进随机森林算法的地质构造识别技术,该技术包括:
[0012]S1:对三维地震勘探得到的包含多种地震属性的数据集进行预处理,具体过程如下:
[0013]S11:对三维地震勘探得到的包含多种地震属性的数据集按照揭露的不同地质构造类型进行样本标记,陷落柱标记为1、断层标记为2、无构造标记为0,按比例划分训练集与测试集;
[0014]S12:对标记后的地震属性数据进行特征相关性分析和特征重要性分析,确定适合后续地质构造识别的属性;
[0015]S2:利用S1得到的地震属性数据集作为输入,构建改进随机森林算法的地质构造识别模型,其步骤如下:
[0016]S21:选定随机森林参数对,利用改进分步长网格搜索对随机森林参数进行寻优,确定最优参数对;
[0017]S22:将基于S21的改进随机森林算法模型与经典随机森林算法模型在不同测试集上进行对比实验,验证改进算法的优越性;
[0018]S3:将改进的随机森林算法模型用于地质构造识别,具体步骤如下:
[0019]S31:将改进的随机森林算法模型与逻辑回归、决策树、GBDT等模型识别结果进行对比,验证模型识别效果;
[0020]S32:利用改进的随机森林算法模型分别对实验矿区和验证矿区进行地质构造识别,经过可视化处理得到构造分布图,其中断层显示为线,陷落柱显示为面。
[0021]2.根据权利要求1所述的地质构造识别技术,其特征在于,所述S12中相关性系数介于

1到1之间,数值越大表示两个特征间的相关性越强,特征存在冗余,反之则证明相关性越小,两个特征间的相关性越弱;
[0022]特征重要性介于0到1,数值越大,表明该属性对于样本标记的分类越重要,通过对 S12两种分析结果的系数进行排序,选择属性相关性较小以及对样本而言特征重要性较大的属性,即对于样本分类效果最好的几种属性作为构造识别模型的属性数据。
[0023]3.根据权利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于三维地震勘探的地质构造识别技术,其特征在于,该技术包括:S1:对三维地震勘探得到的包含多种地震属性的数据集进行预处理,具体过程如下:S11:对三维地震勘探得到的包含多种地震属性的数据集按照揭露的不同地质构造类型进行样本标记,陷落柱标记为1、断层标记为2、无构造标记为0,按比例划分训练集与测试集;S12:对标记后的地震属性数据进行特征相关性分析和特征重要性分析,确定适合后续地质构造识别的属性;S2:利用S1得到的地震属性数据集作为输入,构建改进随机森林算法的地质构造识别模型,其步骤如下:S21:选定随机森林参数对,利用改进分步长网格搜索对随机森林参数进行寻优,确定最优参数对;S22:将基于S21的改进随机森林算法模型与经典随机森林算法模型在不同测试集上进行对比实验,验证改进算法的优越性;S3:将改进的随机森林算法模型用于地质构造识别,具体步骤如下:S31:将改进的随机森林算法模型与逻辑回归、决策树、GBDT等模型识别结果进行对比,验证模型识别效果;S32:利用改进的随机森林算法模型分别对实验矿区和验证矿区进行地质构造识别,经过可视化处理得...

【专利技术属性】
技术研发人员:王怀秀冯思怡
申请(专利权)人:北京建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1