当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于LS-KNN的管道漏磁内检测缺失数据插补方法技术

技术编号:20623729 阅读:20 留言:0更新日期:2019-03-20 14:57
本发明专利技术提供一种基于LS‑KNN的管道漏磁内检测缺失数据插补方法,涉及故障诊断和人工智能技术领域。包括:对原始数据预处理后作为数据样本;提取样本数据特征;设定K值对模型进行训练,得到满足条件的KNN模型;归一化处理分到每类中的特征样本及其对应的数据集,再用最小二乘法对处理后的数据进行拟合建模;计算拟合结果的损失函数,设定误差阈值,令所有样本的长度相同,得到满足条件的LS拟合模型;将含缺失的数据输入到LS‑KNN回归器中,实现对缺失数据的插补;对插补结果进行反归一化得到最终的插补数据。本方法克服了实际数据的缺失随机性,并克服了训练样本与待插补样本维度不同的问题,同时提高了数据插补精度,对信号噪声具有很强的鲁棒性。

A Lost Data Interpolation Method Based on LS-KNN for Pipeline Magnetic Leakage Inspection

The invention provides a method for interpolating missing data of pipeline magnetic flux leakage internal detection based on LS KNN, which relates to the technical field of fault diagnosis and artificial intelligence. Including: pretreatment of raw data as data samples; extraction of sample data characteristics; setting K value to train the model to obtain the KNN model that meets the conditions; normalization of feature samples and corresponding data sets into each category, and then fitting the processed data with least squares method; calculation of loss function of fitting results, setting error threshold, so that the Institute The LS fitting model with the same sample length can be obtained, and the missing data can be input into LS KNN regression to realize the interpolation of missing data, and the final interpolation data can be obtained by inverse normalization of the interpolation results. This method overcomes the missing randomness of the actual data, and overcomes the problem that the dimension of the training sample is different from that of the sample to be interpolated. At the same time, it improves the accuracy of data interpolation and has strong robustness to signal noise.

【技术实现步骤摘要】
一种基于LS-KNN的管道漏磁内检测缺失数据插补方法
本专利技术涉及故障诊断和人工智能
,具体涉及一种基于最小二乘-K-最近邻(LS-KNN)的管道漏磁内检测缺失数据插补方法。
技术介绍
随着国家经济的不断发展,对能源的需求越来越多,其中石油、天然气是重要的能源和化工原料,对人民生活、工农业生产和国防建设都具有至关重要的作用。然而输油管道长期处于恶劣的工作环境中,管道表面的腐蚀现象越来越严重,可能导致管网泄露,容易引起燃烧爆炸等危害,会引起环境污染甚至造成人员伤亡等重大事故。漏磁内检测技术是实际中最常用的管道无损检测方法之一,该方法具有易于实现自动化、检测速度快、效率高、成本低、无污染等优点。海底管道漏磁内检测仪把检测到的大量数据保存并记录下来,由于受传感器和环境等影响可能会产生一些异常和缺失,提高漏磁内检测信号的准确性和有效性的关键技术是对漏磁检测仪直接导出的漏磁信号进行预处理技术,其中重要的一部分是对缺失数据进行插补,数据插补保证了数据完整性,为后续拥有准确的数据处理和数据分析结果奠定基础,为输油管道的安全保驾护航。漏磁内检测缺失数据插补,是通过对缺失数据周围信号的分析来预测未知值。数据插补的算法有很多,常用的数据插补算法有多项式插补法、回归插补法和多重插补法等,各插补法都具有一定的局限性,具体如下:多项式插补法:(1)对周围数据特征不明显的情况无法确定准确的多项式模型,很难实现准确的插补;(2)在插补数据的边缘可能会产生振铃现象;(3)若数据缺失较多,插补结果可能会产生很大的误差。回归插补法:(1)该方法的假设前提是无回答变量与所选取的辅助变量存在一定的线性关系,但是这种线性关系并不是在所有情形下都是成立的;(2)该方法在使用时容易忽略对随机误差项的处理,即使回归插补的参数估计是无偏的,但由于忽略误差项的处理方式也会导致各种可能的测量值。多重插补法:(1)多重插补法随着待插补的数据量的增量,可能陷入局部最优;(2)多重插补法的算法复杂度相对较高,运算速率可能受到很大影响。
技术实现思路
针对现有技术存在的问题,本专利技术提供一种基于LS-KNN的管道漏磁内检测缺失数据插补方法,在漏磁数据中,对于无缺陷数据的数据特征,用最小二乘法(LS)对其进行线性拟合建模,对于缺陷数据,则用最小二乘法进行非线性拟合建模,再用最小二乘算法对训练样本与待插补数据建立线性拟合模型,最后将K-最近邻(KNN)算法的每个类别中加入两个最小二乘线性回归模型,实现对漏磁缺失数据的插补,解决了数据样本维度不同,漏磁缺陷处数据缺失、数据缺失量较大等问题。为了实现上述目的,一种基于LS-KNN的管道漏磁内检测缺失数据插补方法,包括以下步骤:步骤1:从海底管道漏磁检测仪中直接采集原始漏磁检测数据,并且对数据进行预处理,包括二次基线校正和异常数据剔除,具体步骤如下:步骤1.1:对采集到的原始漏磁检测数据进行基线校正;步骤1.2:根据管道的焊缝位置对管道进行分段,具体步骤如下:步骤1.2.1:令通道数量m=1;步骤1.2.2:求取管道漏磁内检测数据单通道的均方差;步骤1.2.3:判断管道的均方差是否小于3s准则的最大阈值,若是,则令m=m+1,返回步骤1.2.2,若否,则认定当前通道为管道的焊缝位置并在此处对管道进行分段;步骤1.2.4:分别将每段管道的异常值进行剔除;步骤1.3:对剔除异常值后的数据进行二次基线校正;步骤2:分析漏磁数据不同数据的特征,对样本数据进行特征提取,得到法兰数据特征样本T1、焊缝数据特征样本T2、缺陷数据特征样本T3和正常数据特征样本T4,特征样本Ti对应的数据集为Di,其中,i=1,...,4,具体步骤如下:步骤2.1:人工提取训练样本的特征样本Ti=(Xi1,Xi2,…,Xi7,Xi8),共提取8个特征,分别是数据的左谷值、右谷值、谷宽度、峰值、左峰谷差、右峰谷差、微分左峰值和微分右峰值;所述左谷值、右谷值和谷宽度用于反映数据缺陷的宽度;所述峰值、左峰谷差和右峰谷差用于反映数据缺陷的高度;所述微分左峰值和微分右峰值用于反映缺陷数据上升和下降的斜率最值;步骤2.2:人工提取测试样本的特征样本Ti′=(X′i1,X′i2,…,X′i7,X′i8),同样提取8个特征,分别是数据的左谷值、右谷值、谷宽度、峰值、左峰谷差、右峰谷差、微分左峰值和微分右峰值;步骤2.3:人工提取待插补数据的特征样本Ti″=(X″i1,X″i2,…,X″i7,X″i8),同样提取8个特征,分别是数据的左谷值、右谷值、谷宽度、峰值、左峰谷差、右峰谷差、微分左峰值和微分右峰值;步骤3:将特征样本Ti分为两部分,一部分特征样本TTrain用于训练KNN模型,另一部分特征样本TTest用于测试KNN模型,得到训练完成的KNN模型,具体步骤如下:步骤3.1:将特征样本Ti分为两部分,一部分特征样本TTrain用于训练KNN模型,另一部分特征样本TTest用于测试KNN模型;步骤3.2:随机选取KNN模型中K值的初始值;步骤3.3:将特征样本TTrain输入到KNN模型中,训练KNN模型;步骤3.4:将特征样本TTest输入到训练完成的KNN模型中,计算模型的判别错误率;步骤3.5:判断模型的判别错误率是否小于误差阈值,若是,则输出训练完成的KNN模型,若否,则调整KNN模型中的K值,返回步骤3.3;步骤4:对于分到每类中的特征样本Ti,其中,i=1,...,4,其对应的数据集为Di,对数据集Di进行归一化处理得到D′i,再用最小二乘法对归一化处理后的数据集D′i进行拟合建模得到D″i,具体步骤如下:步骤4.1:将特征样本Ti进行归一化处理,得到归一化处理后的特征样本Ti′;步骤4.2:对特征样本Ti对应的数据集Di进行归一化处理,使所有样本数据都在0-1之间,得到归一化处理后的数据集D′i;步骤4.3:根据归一化处理后的数据集D′i中的样本数据长度,将样本数据按照从小到大的顺序排序l1,l2,...,ln,取最小样本数据长度l1为第i组样本数据的标准长度;步骤4.4:利用最小二乘法对归一化处理后的数据集D′i中的每个样本数据以l1为样本数据长度进行拟合建模,得到拟合建模后的数据集D″i;步骤5:计算步骤4中对测试数据的拟合结果的损失函数,设定误差阈值P,调整设定的横坐标长度,令所有样本的长度相同,确定最终LS拟合模型,具体步骤如下:步骤5.1:将测试特征样本数据TTest进行归一化处理,得到归一化处理后的试特特征样本T′Test;步骤5.2:对测试特征样本数据TTest对应的数据集DTest进行归一化处理,使所有样本数据都在0-1之间,得到归一化处理后的数据集D′Test;步骤5.3:根据归一化处理后的特征样本Ti′与测试特征样本T′Test之间的最小二乘拟合系数以及预测D′Test,得到缺失数据的预测结果A′;步骤5.4:建立测试数据拟合结果的损失函数L(A′);所述损失函数L(A′)的公式如下;步骤5.5:计算预测结果的损失函数;步骤5.6:判断预测结果的损失函数值是否大于设定误差阈值P,若是,则将样本标准长度l1调整为l2,返回步骤4.4,若否,则输出建立完成的LS拟合模型;步骤6:将含缺失的数据输入到LS-KNN回归器中,实现对缺本文档来自技高网
...

【技术保护点】
1.一种基于LS‑KNN的管道漏磁内检测缺失数据插补方法,其特征在于,包括以下步骤:步骤1:从海底管道漏磁检测仪中直接采集原始漏磁检测数据,并且对数据进行预处理,包括二次基线校正和异常数据剔除;步骤2:分析漏磁数据不同数据的特征,对样本数据进行特征提取,得到法兰数据特征样本T1、焊缝数据特征样本T2、缺陷数据特征样本T3和正常数据特征样本T4,特征样本Ti对应的数据集为Di,其中,i=1,...,4;步骤3:将特征样本Ti分为两部分,一部分特征样本TTrain用于训练KNN模型,另一部分特征样本TTest用于测试KNN模型,得到训练完成的KNN模型;步骤4:对于分到每类中的特征样本Ti,其中,i=1,...,4,其对应的数据集为Di,对数据集Di进行归一化处理得到D′i,再用最小二乘法对归一化处理后的数据集D′i进行拟合建模得到D″i,具体步骤如下:步骤4.1:将特征样本Ti进行归一化处理,得到归一化处理后的特征样本Ti′;步骤4.2:对特征样本Ti对应的数据集Di进行归一化处理,使所有样本数据都在0‑1之间,得到归一化处理后的数据集D′i;步骤4.3:根据归一化处理后的数据集D′i中的样本数据长度,将样本数据按照从小到大的顺序排序l1,l2,...,ln,取最小样本数据长度l1为第i组样本数据的标准长度;步骤4.4:利用最小二乘法对归一化处理后的数据集D′i中的每个样本数据以l1为样本数据长度进行拟合建模,得到拟合建模后的数据集D″i;步骤5:计算步骤4中对测试数据的拟合结果的损失函数,设定误差阈值P,调整设定的横坐标长度,令所有样本的长度相同,确定最终LS拟合模型,具体步骤如下:步骤5.1:将测试特征样本数据TTest进行归一化处理,得到归一化处理后的试特特征样本T′Test;步骤5.2:对测试特征样本数据TTest对应的数据集DTest进行归一化处理,使所有样本数据都在0‑1之间,得到归一化处理后的数据集D′Test;步骤5.3:根据归一化处理后的特征样本Ti′与测试特征样本T′Test之间的最小二乘拟合系数以及预测D′Test,得到缺失数据的预测结果A′;步骤5.4:建立测试数据拟合结果的损失函数L(A′);所述损失函数L(A′)的公式如下;...

【技术特征摘要】
1.一种基于LS-KNN的管道漏磁内检测缺失数据插补方法,其特征在于,包括以下步骤:步骤1:从海底管道漏磁检测仪中直接采集原始漏磁检测数据,并且对数据进行预处理,包括二次基线校正和异常数据剔除;步骤2:分析漏磁数据不同数据的特征,对样本数据进行特征提取,得到法兰数据特征样本T1、焊缝数据特征样本T2、缺陷数据特征样本T3和正常数据特征样本T4,特征样本Ti对应的数据集为Di,其中,i=1,...,4;步骤3:将特征样本Ti分为两部分,一部分特征样本TTrain用于训练KNN模型,另一部分特征样本TTest用于测试KNN模型,得到训练完成的KNN模型;步骤4:对于分到每类中的特征样本Ti,其中,i=1,...,4,其对应的数据集为Di,对数据集Di进行归一化处理得到D′i,再用最小二乘法对归一化处理后的数据集D′i进行拟合建模得到D″i,具体步骤如下:步骤4.1:将特征样本Ti进行归一化处理,得到归一化处理后的特征样本Ti′;步骤4.2:对特征样本Ti对应的数据集Di进行归一化处理,使所有样本数据都在0-1之间,得到归一化处理后的数据集D′i;步骤4.3:根据归一化处理后的数据集D′i中的样本数据长度,将样本数据按照从小到大的顺序排序l1,l2,...,ln,取最小样本数据长度l1为第i组样本数据的标准长度;步骤4.4:利用最小二乘法对归一化处理后的数据集D′i中的每个样本数据以l1为样本数据长度进行拟合建模,得到拟合建模后的数据集D″i;步骤5:计算步骤4中对测试数据的拟合结果的损失函数,设定误差阈值P,调整设定的横坐标长度,令所有样本的长度相同,确定最终LS拟合模型,具体步骤如下:步骤5.1:将测试特征样本数据TTest进行归一化处理,得到归一化处理后的试特特征样本T′Test;步骤5.2:对测试特征样本数据TTest对应的数据集DTest进行归一化处理,使所有样本数据都在0-1之间,得到归一化处理后的数据集D′Test;步骤5.3:根据归一化处理后的特征样本Ti′与测试特征样本T′Test之间的最小二乘拟合系数以及预测D′Test,得到缺失数据的预测结果A′;步骤5.4:建立测试数据拟合结果的损失函数L(A′);所述损失函数L(A′)的公式如下;步骤5.5:计算预测结果的损失函数;步骤5.6:判断预测结果的损失函数值是否大于设定误差阈值P,若是,则将样本标准长度l1调整为lx,返回步骤4.4,若否,则输出建立完成的LS拟合模型;步骤6:将含缺失的数据输入到LS-KNN回归器中,实现对缺失数据的插补;步骤7:对步骤6...

【专利技术属性】
技术研发人员:卢森骧姜琳刘金海张化光冯健汪刚马大中
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1