System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Stacking算法的岩性识别预测方法技术_技高网

一种基于Stacking算法的岩性识别预测方法技术

技术编号:41128135 阅读:7 留言:0更新日期:2024-04-30 17:56
本发明专利技术公开了一种基于Stacking算法的岩性识别预测方法,涉及岩土工程数据处理技术领域,解决了复杂地质岩石岩性识别预测问题。方法包括以下步骤:1)获取训练用数据,包括随钻测量参数、地质报告,构建学习样本;2)对数据进行异常值处理和归一化处理,并划分出训练集与测试集;3)将处理后的训练集放入Stacking算法建立的模型进行岩性识别的训练;4)使用训练好的模型对测试集的数据进行岩性预测;5)通过F1‑Score评价训练的模型性能,如未达到预期效果,调整Stacking中的超参数重新进行步骤3)、4),直到获得预期模型。与现有技术相比,基于Stacking算法构建的岩性识别模型对非线性关系的拟合更为出色,拥有良好的表达能力与泛化能力。

【技术实现步骤摘要】

本专利技术涉及岩土工程数据处理,尤其是一种基于stacking算法的岩性识别预测方法。


技术介绍

1、测定煤巷岩性是实现煤炭安全、高效、智能化开采的前提,岩性识别是根据钻进过程中的钻进参数,获取岩土体结构特征参数,并反演地层结构信息的过程。但是目前的传统识别方法,如钻孔窥视法、钻井取心鉴定等,工作成本高,耗时长,且获取岩体信息数据有限。因此,利用机器学习算法分析钻进数据,提高岩性识别的准确性,并降低岩性信息获取成本,无疑对煤矿的安全生产具有重要的意义,也是对传统地层岩性识别方法的补充。

2、应用机器学习算法进行岩性识别的本质是建立模型对已有随钻测量数据(推进力、扭矩、钻进距离、时间等)和对应地质报告进行学习,建立随钻测量数据与岩性间的隐藏关系,最后实现对其他地层进行岩性识别。目前常用的机器学习算法有支持向量机、神经网络、k-最近邻、随机森林、梯度提升决策树等,这些方法在岩性识别的精度提升上有着显著的表现。

3、以上均为单一岩性识别算法,实际上每种算法均存在一定的缺点和应用局限性,可以通过组合各算法来解决该问题。传统的组合预测方法只是将各基础算法的预测结果加以权重从而进行预测输出,只是将结果进行线性组合的过程,没有反馈学习和非线性表达的能力。


技术实现思路

1、本专利技术要解决的技术问题是提供一种具有自我学习和非线性组合能力,且对复杂地质岩石岩性具有较高预测精度的基于stacking算法的岩性识别预测方法。

2、为解决以上问题,本专利技术采用以下技术方案:

3、一种基于stacking算法的岩性识别预测方法,包括以下步骤:

4、s1、获取训练用数据,包括随钻测量参数(时间、位移、扭矩、马达油压差、推进油压差、推进力)、地质报告;

5、s2、对s1中获取的数据,进行异常值处理和归一化处理,并划分出训练集与测试集;

6、s3、将s2中处理的训练集放入stacking算法建立的模型进行岩性识别的训练;

7、s4、使用s3中训练的模型对测试集的数据进行岩性预测;

8、s5、通过f1-score评价训练的模型性能,如未达到预期效果,调整stacking中的超参数重新进行步骤3)、4),直到获得预期模型。

9、进一步的是,所述s1中获取的样本数据集记为χ={{x1,y1},{x2,y2},···,{xi,yi}},其中xi代表第i组特征向量。

10、进一步的是,所述s2中的异常值处理方法为:

11、s21)、从s1中的样本数据集中随机选择ψ个点作为子样本,放入一棵孤立树的根节点;

12、s22)、随机指定一个维度,在当前节点数据范围内,随机产生一个切割点α;

13、s23)、此切割点的选取生成了一个超平面,将当前节点数据空间切分为2个子空间:把当前所选维度下小于α的点放在当前节点的左分支,把大于等于α的点放在当前节点的右分支;

14、s24)、在节点的左分支和右分支节点递归步骤s22)、s23),不断构造新的叶子节点,直到叶子节点上只有一个数据;

15、s25)、对整个数据集共建立t个孤立树,对数据集中的每个样本点x进行评分,h(x)为样本x在每棵孤立树的高度,c(ψ)为给定样本树ψ时平均路径长度。其中评分过高的样本视为异常值,将从数据集中剔除。

16、进一步的是,所述s2中涉及的归一化处理方法为:其中x为待处理样本,x′为归一化处理后的数据,为样本的平均值,max(x)为样本中最大值,min(x)为样本中最小值。将经过异常值处理和归一化处理后的数据划分训练集χ′与测试集χ″。

17、进一步的是,所述s3中stacking算法采用特征线性加权stacking,具体实施方法为:

18、s31)、设g1,g2,···,gl为l个机器学习模型的学习预测函数,f1,f2,···,fm为用于混合的m个元特征函数的集合,其中每个f将每个χ中的数据映射到相应的元特征。

19、s32)、由s31)中的假设可以得到特征线性加权stacking的融合预测函数b(x)为:其中,vml为学习权重,vml∈r。

20、s33)、学习权重的获取按照以下方式:其中y(x)为样本点x所对应的岩性,χ′为训练样本集。

21、s34)、训练步骤s32)、s33)中的迭代回归训练的学习器选用支持向量机、bp-神经网络、k-最近邻,每种学习器建立两个,分别使用不同的元特征函数,共使用6个基学习器进行stacking模型的建立。不同学习器使用的训练集遵循6折交叉验证原则,即将训练集χ′随机划分为六个相同大小的子训练集,每个学习器对应1个子训练集作为验证集,同时,每个学习器的训练集为除去自身验证集的其他五个子训练集。进一步的是,所述s5中f1-score评价模型的方法为,计算测试集每种岩性预测的准确率其中tpi为第i种岩性分类正确的样本数量,fpi为第i种岩性分类错误的样本数量,计算测试集每种岩性预测的召回率其中fni为其他岩性错误预测为第i种岩性的样本数量,评价模型的指标其中n为岩性的总数量。

22、本专利技术与现有技术相比,其有益效果体现在:集成常用于岩性识别且预测精度较高的机器学习算法作为基学习器,既弥补了单一算法在使用范围上的不足,又提升了对影响岩性叛变的特征因素的提取能力;基于stacking算法的岩性识别模型对非线性关系的拟合更为出色,拥有良好的表达能力与泛化能力。

本文档来自技高网...

【技术保护点】

1.一种基于Stacking算法的岩性识别预测方法,其特征在于,包括以下步骤:1)获取训练用数据,包括随钻测量参数(时间、位移、扭矩、马达油压差、推进油压差、推进力)、地质报告,构建样本数据集;2)对样本数据集进行异常值处理,包括数据清洗和归一化处理,并划分出训练集与测试集;3)将处理后的训练集放入Stacking算法建立的模型进行岩性识别的训练;4)使用训练好的模型对测试集的数据进行岩性预测;5)通过F1-Score评价训练的模型性能,如未达到预期效果,调整Stacking中的超参数重新进行步骤3)、4),直到获得预期模型。

2.根据权利要求1所述的一种基于Stacking算法的岩性识别预测方法,所述步骤1)特征在于,样本数据集记为χ={{x1,y1},{x2,y2},···,{xi,yi}},其中xi代表第i组特征向量,其中xi=[xi1,xi1,···,xi6]T,xi1,xi2,···,xi6分别代表第i组特征向量的时间、位移、扭矩、马达油压差、推进油压差、推进力。

3.根据权利要求1所述的一种基于Stacking算法的岩性识别预测方法,所述步骤2)特征在于,对样本数据集使用隔离森林方法进行数据清洗,清洗5%的异常值,将清洗后的数据集进行归一化处理,所述的归一化处理方法为:其中x为待处理样本,x′为归一化处理后的数据,x为样本的平均值,max(x)为样本中最大值,min(x)为样本中最小值,将经过异常值处理和归一化处理后的数据划分训练集χ′与测试集χ″。

4.根据权利要求1所述的一种基于Stacking算法的岩性识别预测方法,所述的步骤3)特征在于,包括以下步骤:31)、设g1,g2,···,gl为l个机器学习模型的学习预测函数,f1,f2,···,fm为用于混合的m个元特征函数的集合,其中每个f将每个χ中的数据映射到相应的元特征;32)、由步骤31)中的假设可以得到特征线性加权Stacking的融合预测函数b(x)为:其中,vml为学习权重,vml∈R;33)、学习权重的获取按照以下方式:其中y(x)为样本点x所对应的岩性,χ′为训练样本集;34)、训练步骤32)、33)中的迭代回归训练的学习器选用支持向量机、BP-神经网络、K-最近邻,每种学习器建立两个,分别使用不同的元特征函数,共使用6个基学习器进行Stacking模型的建立,不同每个学习器使用的训练集遵循6折交叉验证原则,即将训练集χ′随机划分为六个相同大小的子训练集,每个学习器对应1个子训练集作为验证集,同时,每个学习器的训练集为除去自身验证集的其他五个子训练集。

5.根据权利要求1所述的一种基于Stacking算法的岩性识别预测方法,所述的步骤5)特征在于,F1-Score评价模型的方法为,计算测试集每种岩性预测的准确率其中TPi为第i种岩性分类正确的样本数量,FPi为第i种岩性分类错误的样本数量,计算测试集每种岩性预测的召回率其中FNi为其他岩性错误预测为第i种岩性的样本数量,评价模型的指标其中n为岩性的总数量。

...

【技术特征摘要】

1.一种基于stacking算法的岩性识别预测方法,其特征在于,包括以下步骤:1)获取训练用数据,包括随钻测量参数(时间、位移、扭矩、马达油压差、推进油压差、推进力)、地质报告,构建样本数据集;2)对样本数据集进行异常值处理,包括数据清洗和归一化处理,并划分出训练集与测试集;3)将处理后的训练集放入stacking算法建立的模型进行岩性识别的训练;4)使用训练好的模型对测试集的数据进行岩性预测;5)通过f1-score评价训练的模型性能,如未达到预期效果,调整stacking中的超参数重新进行步骤3)、4),直到获得预期模型。

2.根据权利要求1所述的一种基于stacking算法的岩性识别预测方法,所述步骤1)特征在于,样本数据集记为χ={{x1,y1},{x2,y2},···,{xi,yi}},其中xi代表第i组特征向量,其中xi=[xi1,xi1,···,xi6]t,xi1,xi2,···,xi6分别代表第i组特征向量的时间、位移、扭矩、马达油压差、推进油压差、推进力。

3.根据权利要求1所述的一种基于stacking算法的岩性识别预测方法,所述步骤2)特征在于,对样本数据集使用隔离森林方法进行数据清洗,清洗5%的异常值,将清洗后的数据集进行归一化处理,所述的归一化处理方法为:其中x为待处理样本,x′为归一化处理后的数据,x为样本的平均值,max(x)为样本中最大值,min(x)为样本中最小值,将经过异常值处理和归一化处理后的数据划分训练集χ...

【专利技术属性】
技术研发人员:岳中文薛克军闫逸飞金庆雨马文彪周星源龙思晨胡昊薛力玮
申请(专利权)人:中国矿业大学北京
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1