一种基于集成学习建立的海相页岩原地气量预测模型制造技术

技术编号:37326266 阅读:12 留言:0更新日期:2023-04-21 23:05
本发明专利技术公开了一种基于集成学习建立的页岩原地气量预测模型,包括以下步骤:输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型以及适配的特征参数,并建立最终的预测元模型;利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面;本发明专利技术能够有效利用有限的数据,有效地避免信息遗漏或者过度拟合,从而构建精准的预测模型。从而构建精准的预测模型。从而构建精准的预测模型。

【技术实现步骤摘要】
一种基于集成学习建立的海相页岩原地气量预测模型


[0001]本专利技术涉及原地气量预测
,具体涉及一种基于集成学习建立的海相页岩原地气量预测模型。

技术介绍

[0002]伴随着绿色低碳能源的广阔前景和双碳目标的发展要求,页岩气成为了目前最现实的清洁资源之一,页岩含气性是其勘探潜力最直观的表现,含气性越高,则勘探潜力越大,在实际地质特征中,由于页岩含气量受页岩自生属性和外界条件多种因素制约,因此,单因素对于含气性的作用似乎并不是一定的。
[0003]对于深层页岩气,为了满足其勘探效益,划定优质储层的原地气量(GIP)标准应当更高,然而原地气量(GIP)准确预测很困难,虽然现场解析法操作简单,对样品采集、处理与过程控制已形成规范,是目前页岩气勘探开发中使用最广泛的一种方法,但是在实际操作中受限于页岩解析仪器条件和解析时间,不可能对所有岩心样品进行解析实验。准确快速的含气量评价手段一直是一个尚待完善的问题。
[0004]为了解决前述方法,在现有技术中基于机器学习的方法来进行相应的预测,但是机器学习虽然可以显著减少耗时和劳动密集型的工作,然而,在一些复杂问题中,受到样本数量限制,单一机器学习模型可能无法发挥其自身的优势并有效地解决问题。对于页岩含气性的预测来说,在当前的现有技术中,一般是通过拟合的方式进行分析,对于这类技术方案其一般在构建模型时需要包含一定的条件,另外,在进行拟合模拟分析时,其预测的精度取决于地质参数的数据质量和数量,当地质参数个数较少时模型精度较低,又由于地质参数精度以及共线性的问题,当地质参数个数较多时,预测模型会出现过度拟合。基于前述两个方面的因素,通常制约着精准预测模型的构建,而如何准确把握地质参数数据的质量和数量又是一个不可控的问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于集成学习建立的海相页岩原地气量预测模型,以解决现有技术中无法通过少量有限的数据通过机器学习构建对页岩含气量精准预测模型的技术问题。
[0006]为解决上述技术问题,本专利技术具体提供下述技术方案:
[0007]一种基于集成学习建立的海相页岩原地气量预测模型,包括以下步骤:
[0008]输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;
[0009]依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型;
[0010]利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面。
[0011]进一步地,将不同地质参数输入至不同的预测模型中的具体方法为:
[0012]将各类地质变量进行标准化处理使得各变量均处于同一个数量级;
[0013]利用主成分分析对所述地质参数进行数据降维处理;
[0014]将处理结果随机分为训练集和测试集,并将所述训练集输入不同的预测模型中进行训练,且通过训练集的滚动式收集以不断精细化所述预测模型;
[0015]其中:
[0016]对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。
[0017]进一步地,在对所述预测模型进行精细化的过程中采用平均绝对百分比误差和决定系数对所述预测模型进行质量评价,并依次筛选出最佳的预测模型作为基模型;
[0018]其中:
[0019]所述基模型来自于不同类型的算法,并且各个所述基模型之间的性能表达差距在设定的阈值范围以内。
[0020]进一步地,对不同类型的基模型利用stacking方法集成建立元模型。
[0021]进一步地,所述元模型在利用训练集和测试集中的数据进行检验,检验条件为:
[0022]所述元模型在测试集的平均绝对百分比误差应当整体低于基模型,决定系数应当高于基模型。进一步地,在预测模型中进行训练且通过训练集的滚动式收集以不断精细化所述预测模型时,通过网格搜索的方式以优化所述预测模型的超参数。
[0023]进一步地,网格搜索的次数不少于5000次。
[0024]进一步地,对不同地质参数变量进行聚类分析,并将组间聚类分析结果作为判断依据,其具体的操作步骤为:
[0025]设定各地质参数的变量为i,不同地质参数中的样品数为n
i
,样品集合为M
i

[0026]设定每种地质参数变量与原地气量在向量空间中的组间距离为L
i
,影响地质参数变量i对原地气量的相对比重以L
i
大小为准,按照L
i
从小到大顺次聚类,直至将所有变量i全部聚为一类为止。本专利技术与现有技术相比较,具有如下有益效果:
[0027]本专利技术搭建了一个基于有限样品数量、且从聚类分析到预测元模型的GIP评价框架,通过聚类分析结果进行输入特征的确定可以有效地避免信息遗漏或者过度拟合,并利用主成分分析对输入特征进行处理可以达到对数据的降维处理,从而对系统数据进行冗余分析和特征提取,有效解决数据共线性的问题,通过集成算法建立的泛化能力强的元模型,借助少量有限的小样本即可实现对页岩含气性进行预测和评价,有助于指导深层页岩气下一步的勘探部署,有效降低勘探的风险性。
附图说明
[0028]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0029]图1为本专利技术实施例提供的预测模型的建立流程示意图。
具体实施方式
[0030]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]在实际勘查中,由于地质参数复杂而多变,且不同地质参数之间的相互影响关系不同而且不统一,因此基于多种地质参数建立油气预测模型一直是一个难以解决的问题。
[0032]在当前的现有技术中,主要包括两个方面:
[0033]第一方面,通过建立含气性和多种地质参数的元回归模型,从而计算和预测页岩的GIP(原地气量);
[0034]第二方面,通过对不同地质参数进行无量纲化处理,随后利用多元线性回归分析方法计算了不同地质参数的权重,通过多参数加权叠加公式建立页岩气量的多远线性回归模型。
[0035]但是从现有技术的两个方向来说,可以明确的是,GIP预测模型的准确性取决于构建所述预测模型所用地址参数的数据质量和数量。当地质参数个数较少而且质量较低时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集成学习建立的页岩原地气量预测模型,其特征在于,包括以下步骤:输入原地气量和地质参数,并且将原地气量和地质参数构成一个开放式的数据集,对所述数据集进行聚类分析以确定不同地质参数对原地气量的影响权重;依据聚类分析的影响权重,将不同地质参数输入至不同的预测模型中,并根据平均绝对百分比误差和决定系数筛选基模型并建立最终的预测元模型;利用最终的预测模型以及对应的特征参数对具有相同或相近地质条件的无含气性数据的井段进行预测,并根据预测外推并评价其含气性剖面。2.根据权利要求1所述的一种基于集成学习建立的页岩原地气量预测模型,其特征在于,将不同地质参数输入至不同的预测模型中的具体方法为:将各类地质变量进行标准化处理使得各变量均处于同一个数量级;利用主成分分析对所述地质参数进行数据降维处理;将处理结果随机分为训练集和测试集,并将所述训练集输入不同的预测模型中进行训练,且通过训练集的滚动式收集以不断精细化所述预测模型;其中:对预测模型进行训练时采用k折交叉验证以避免机器学习过程中可能发生的过度拟合。3.根据权利要求2所述的一种基于集成学习建立的页岩原地气量预测模型,其特征在于,在对所述预测模型进行精细化的过程中采用平均绝对百分比误差和决定系数对所述预测模型进行质量评价,并依次筛选出最佳的预测模型作为基模型;其中:所述基模型来自于不同类型的算法,并且各个所述基模型之间的性能表达差距在设定的阈值范围以内。4.根据权利...

【专利技术属性】
技术研发人员:冯越卢晨刚李刚高平肖贤明
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1