System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向油气管道腐蚀速率预测的自动特征工程方法技术_技高网

一种面向油气管道腐蚀速率预测的自动特征工程方法技术

技术编号:40096108 阅读:4 留言:0更新日期:2024-01-23 16:57
本发明专利技术公开了一种面向油气管道腐蚀速率预测的自动特征工程方法,包括:对初始数据进行数据转换,采用中位数偏差法检测异常值,采用KNN填充缺失值;使用定制化转换函数生成广度层次的特征,采用受限玻尔兹曼机和梯度提升决策树结合的方法,深度挖掘特征,生成新特征集;针对初始特征与新特征的集合,采用基于最大互信息系数的封装法进行特征筛选,并验证新特征集,得到均方误差、平均绝对误差、平均相对误差和判定系数四项指标,最终选择指标最优的结果。本发明专利技术的优点是:能达到与传统人工方法相当的效果,并且很大程度上节约了时间,减少了人工成本,并且对油气管道腐蚀速率的预测足够准确,能达到及时维护油气管道的目的。

【技术实现步骤摘要】

本专利技术涉及油气管道腐蚀速率预测,特别涉及一种面向油气管道腐蚀速率预测的基于受限玻尔兹曼机(restricted boltzmann machine,rbm)与梯度提升决策树(gradient boosting decision tree,gbdt)相结合的定制化自动特征工程方法。


技术介绍

1、油气管道作为我国油气资源输送的主要载体,随着使用年限的增加,必然会受到腐蚀。严重的腐蚀甚至会导致油气泄漏、管道爆炸等安全事故。准确的预测油气管道腐蚀速率对油气管道及时维护有重要的指导意义,是保障油气管道安全运行的一项重要研究。

2、目前,油气管道腐蚀速率预测在特征工程上主要是研究人员基于专业知识手工构建新特征该,过程困难且耗时,已不能满足与日俱增的腐蚀速率预测需求。针对这个问题,可以使用当前主流的自动特征工程思想进行解决,目前部分常见的自动特征工程框架如表1所示。

3、表1部分常见自动特征工程框架

4、

5、这些框架存在的问题如下:

6、(1)都是通用型框架,在油气管道腐蚀数据集上表现不够理想;

7、(2)大都没有异常值和缺失值处理的过程,需要提前处理数据,才能使用;

8、(3)大都只是生成广度层次或深度层次的特征,并未实现两者相结合。


技术实现思路

1、本专利技术针对现有技术的缺陷,提供了一种面向油气管道腐蚀速率预测的自动特征工程方法

2、为了实现以上专利技术目的,本专利技术采取的技术方案如下:

3、一种面向油气管道腐蚀速率预测的自动特征工程方法,包括以下步骤:

4、步骤1,数据预处理,对初始数据进行数据转换,再采用中位数偏差法(medianabsolute deviation,mad)检测异常值,采用knn填充缺失值,使用xgboost验证效果,选择出最优结果作为新数据。

5、步骤2,特征生成,对于预处理后的数据首先使用定制化转换函数生成广度层次的特征,再采用受限玻尔兹曼机(restricted boltzmann machine,rbm)和梯度提升决策树(gradient boosting decision tree,gbdt)结合的方法,深度挖掘特征,生成新特征集;

6、步骤3,特征选择,针对新特征的集合,采用基于最大互信息系数(maximalinformation coefficient,mic)的封装法进行特征筛选,并使用xgboost(extremegradient boosting)、支持向量回归(support vector regression,svr)和随机森林回归(random forest regression,rfr)模型验证新特征集,得到均方误差(mean squarederror,mse)、平均绝对误差(mean absolute error,mae)、平均相对误差(mean relativeerror,mre)和判定系数(r2 score,r2)四项指标,最终选择指标最优的结果。

7、进一步地,步骤1中异常值检测具体为:首先将初始数据每一列进行mad法检测,然后检测出不在区间smad的数据,然后将初始数据集分为正常值数据集和异常值数据集,最后将异常值数据集中的异常点看作失值,得到缺失值数据集,以便后续缺失值填充过程使用。其中smad[μ-3·m·mad,u+3·m·mad],m为常数因子,对于正态分布,m通常取值1.4826。进一步地,步骤1中缺失值填充的详细步骤如下:

8、步骤11.获取数据,异常值处理后的数据和原始数据,共有三个数据集,分别是初始数据集(ori-data)、缺失值数据集(exception-data)和正常值数据集(normal-data);

9、步骤12.遍历exception-data,求每条缺失值与normal-data每一行数据的欧氏距离(eu)、曼哈顿距离(man)和马氏距离(ma),并进行升序排列;

10、步骤13.根据当前的k值,选择距离最近的前k个点,分别根据k个点的最近值(nearest,n)、平均值(average,a)、加权平均值(weighted average,wa)对缺失值进行填充,结合normal-data得到9个新数据集,分别是eu-n、eu-a、eu-wa、man-n、man-a、man-wa、ma-n、ma-a、ma-wa,和原始数据集ori-data,共计10个数据集;

11、步骤14.将步骤13得到的10个数据集,分别使用xgboost回归算法进行5折交叉验证,最终分别得到4个评价指标mse、mae、mre和r2;

12、步骤15.将9个新数据集的结果和ori-data的结果进行比较,若效果较差则k=k+step,继续进行步骤13和步骤14,直到9个数据集中有一个数据集所有指标都优于ori-data的指标时停止,此时选择该数据集作为缺失值填充的新数据集process-data,若无,则ori-data即为目前最优数据集。

13、进一步地,步骤2特征生成的详细步骤如下:

14、步骤21.输入预处理后的数据集process-data,首先计算该数据集中每个特征与目标值的最大互信息系数(mic),得到最大mic为max-mic;

15、步骤22.从定制化转换函数库随机选择一个函数f(x),对process-data的每个特征进行计算,生成新特征集data1;

16、步骤23.计算data1中每个特征的mic,找出大于max-mic的特征集data2;

17、步骤24.判断data2是否为空,若不为空,则找出mic最大的特征,放入data3中,若为空,再进入步骤5;

18、步骤25.判断定制化转换函数库中函数是否已经选完,若选完则合并data3和process-data得到新特征集math-data,若未选完,则返回步骤2继续生成特征;

19、步骤26.将math-data分别进入到rbm和gbdt生成新特征集rbm-data和gbdt-data;

20、步骤27.再将rbm-data作为gbdt的输入,生成新特征集rbm-gbdt-data,将gbdt-data作为rbm的输入,生成新特征集gbdt-rbm-data;

21、步骤28.将四个新特征集rbm-data、gbdt-data、rbm-gbdt-data和gbdt-rbm-data输出,进入后续的特征选择部分。

22、进一步地,步骤3特征选择的详细步骤如下:

23、步骤31.输入特征生成过后的四个数据集rbm-data、gbdt-data、rbm-gbdt-data和gbdt-rbm-data,分别求解每个数据集的mic值的集合,分别进行降序排列;

24、步骤32.从每一个mic值集合中选择mic最大的k个特征作为新特征集,进入到本文档来自技高网...

【技术保护点】

1.一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于:

3.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于,步骤1中缺失值填充的详细步骤如下:

4.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于:

5.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于:

【技术特征摘要】

1.一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征工程方法,其特征在于:

3.根据权利要求1所述的一种面向油气管道腐蚀速率预测的自动特征...

【专利技术属性】
技术研发人员:王兵赵春兰黎峰张兴鹏蒋竞飞肖斌
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1