一种生产业务噪声数据检测和分离方法技术

技术编号：16529057 阅读：24 留言：0更新日期：2017-11-09 20:50

本发明专利技术公开了一种生产业务噪声数据检测和分离方法，包括以下步骤：（1）利用数据自身分布特征检测出单维度数据集中的噪声数据，形成新数据组；（2）利用箱型图的方法在所述新数据组中识别并剔除离群值和异常值，得到目标数据；（3）利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据，得到目标数据。使用本发明专利技术的方法可以有效识别并剔除生产业务噪声数据，从而在提高数据质量的同时，也减少后期数据质量治理的工作量和难度，提升数据的利用效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种生产业务噪声数据检测和分离方法
本专利技术涉及信息处理
，特别是涉及到一种生产业务噪声数据检测和分离方法。
技术介绍
数据质量的提高有利于对数据价值信息的挖掘，并构建新的知识模型支持生产决策和预判，能够提升设备的安全性，降低设备的故障，减少由于缺陷和故障导致的经济损失，同时提升设备的利用效率，减少重复投资和浪费，延长设备使用寿命，降低资产的报废净值率。在生产过程中不可避免会引进一些生产业务噪声数据，这些噪声数据的存在，大大降低了数据的质量。因此，有必要对这种生产业务噪声数据进行检测并剔除。
技术实现思路
为了克服现有技术中的不足，本专利技术提出了一种生产业务噪声数据检测和分离方法，目的在于识别并剔除生产业务噪声数据，提高数据质量。本专利技术采用的技术方案为：一种生产业务噪声数据检测和分离方法，包括以下步骤：S1：利用数据自身分布特征检测出单维度数据集中的噪声数据，形成新数据组；S2：利用箱型图方法在所述新数据组中识别并剔除离群值和异常值，得到目标数据；S3：利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据，得到目标数据。优选的，所述步骤S1的具体方法为：假设有一组数据如下：序号1234…n数据E_1E_2E_3E_4…E_n（1）将数据集切等分成αn个区间（α可取1,10,100,1000），区间大小为θ=(Max{E_1,E_2,…,E_n}-Min{E_1,E_2,…,E_n})/αn；（2）截取数据分布集中的区间作为数据集中域，找到数据集中域形成新数据组E。优选的，所述步骤S2的具体方法为：利用箱型图方法，对所述新数据组剔除离群...
一种生产业务噪声数据检测和分离方法

【技术保护点】
一种生产业务噪声数据检测和分离方法，其特征在于，包括以下步骤：S1：利用数据自身分布特征检测出单维度数据集中的噪声数据，形成新数据组；S2：利用箱型图方法在所述新数据组中识别并剔除离群值和异常值，得到目标数据；S3：利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据，得到目标数据。

【技术特征摘要】
1.一种生产业务噪声数据检测和分离方法，其特征在于，包括以下步骤：S1：利用数据自身分布特征检测出单维度数据集中的噪声数据，形成新数据组；S2：利用箱型图方法在所述新数据组中识别并剔除离群值和异常值，得到目标数据；S3：利用基于欧几里德距离的聚类方法来识别并分离多维数据集中的噪声数据，得到目标数据。2.根据权利要求1所述的一种生产业务噪声数据检测和分离方法，其特征在于，所述步骤S1的具体方法为：假设有一组数据如下：序号1234…n数据E_1E_2E_3E_4…E_n（1）将数据集切等分成αn个区间（α可取1,10,100,1000），区间大小为θ=(Max{E_1,E_2,…,E_n}-Min{E_1,E_2,…,E_n})/αn；（2）截取数据分布集中的区间作为数据集中域，找到数据集中域形成新数据组E。3.根据权...

【专利技术属性】
技术研发人员：邬蓉蓉，张炜，蒲金雨，赵坚，张玉波，王乐，张磊，
申请(专利权)人：广西电网有限责任公司电力科学研究院，
类型：发明
国别省市：广西,45

全部详细技术资料下载我是这个专利的主人