一种大规模数据中离群数据的分析方法技术

技术编号：11181499 阅读：63 留言：0更新日期：2015-03-25 10:56

本发明专利技术公开了一种大规模数据中离群数据的分析方法，属于数据挖掘技术，包括如下步骤：（1）、离群数据挖掘；（2）、离群数据聚类：将离群数据分配到不同的簇中；（3）、成簇极稀少离群数据的筛选：筛选的依据为簇中样本个数小于阈值T1；所有簇中的极稀少离群数据组成的数据集记为C1；（4）、离群数据成团性特征分析及簇中极稀少数据的筛选：利用可视化手段辅助分析聚到同簇中的离群数据，得到其共性特征即成团性特征，进而分析其异常特征产生的原因；（5）、极稀少离群数据的分析。本发明专利技术针对大规模数据中离群数据分析的目的和存在的问题，结合可视化、模式识别及数据挖掘相关方法，对大规模数据中离群数据进行有效的分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘技术，具体地说是一种大规模数据中离群数据的分析方法。
技术介绍
离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离群数据的产生一般认为有两种原因：（1）、度量或执行错误所导致：对这类型离群数据的筛选，可以从大量数据中筛选出杂质或存在问题的数据，进而提高数据的总体质量。（2）、固有的数据变异性的结果：这类型数据的客观存在决定了对该类型离群数据筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据，可以很好的提高相关理论的研究。利用离群数据检测，不仅可以用来在分类、聚类及回归等其它应用中排除样本中的杂质数据，而且可以发现在大样本数据中存在的一些分布比较少的特殊样本数据。对大规模数据集筛选出的离群数据进行有效的分析，一方面要得到相对普遍的异常数据特征并进行分析，另外一方面要在其中筛选出相对非常稀少的离群数据。
技术实现思路
本专利技术一种大规模数据中离群数据的分析方法的技术任务是提供一种针对大规模数据中离群数据分析的目的和存在的问题，结合可视化、模式识别及数据挖掘相关方法，对大规模数据中离群数据进行有效的分析。本专利技术的技术任务是按以下方式实现的：一种大规模数据中离群数据的分析方法，包括如下步骤：（1）、离群数据挖掘：从大规模数据中筛选出其中的离群数据；本专利技术提出的方法是在此步骤基础上对筛选出来的离群数据进行分析，进而发现离群数据中的成团性及其中的极稀少离群数据；需要注意的是，数据特征的选取及挖掘方法的不同会导致...

【技术保护点】
一种大规模数据中离群数据的分析方法，其特征在于包括如下步骤：（1）、离群数据挖掘：从大规模数据中筛选出其中的离群数据；（2）、离群数据聚类：该步骤的目的是对步骤（1）筛选出来的离群数据进行聚类，将离群数据分配到不同的簇中，簇中的离群数据更为相似且不同簇中的离群数据的差别比较大；（3）、成簇极稀少离群数据的筛选：成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据；这些数据为位于特征空间外围，明显偏离所有数据的全局离群数据；筛选的依据为簇中样本个数小于阈值T1；所有簇中的极稀少离群数据组成的数据集记为C1；（4）、离群数据成团性特征分析及簇中极稀少数据的筛选：成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据，得到其共性特征即成团性特征，进而分析其异常特征产生的原因；该步骤同时会筛选出隐藏簇中的极稀少离群数据；（5）、极稀少离群数据的分析：极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。

【技术特征摘要】
1.一种大规模数据中离群数据的分析方法，其特征在于包括如下步骤：
（1）、离群数据挖掘：从大规模数据中筛选出其中的离群数据；
（2）、离群数据聚类：该步骤的目的是对步骤（1）筛选出来的离群数据进行聚类，将离群数据分配到不同的簇中，簇中的离群数据更为相似且不同簇中的离群数据的差别比较大；
（3）、成簇极稀少离群数据的筛选：成簇极稀少离群数据为聚类过程中聚集到规模极小的簇中的离群数据；这些数据为位于特征空间外围，明显偏离所有数据的全局离群数据；筛选的依据为簇中样本个数小于阈值T1；所有簇中的极稀少离群数据组成的数据集记为C1；
（4）、离群数据成团性特征分析及簇中极稀少数据的筛选：成团性特征分析的目的是利用可视化手段辅助分析聚到同簇中的离群数据，得到其共性特征即成团性特征，进而分析其异常特征产生的原因；该步骤同时会筛选出隐藏簇中的极稀少离群数据；
（5）、极稀少离群数据的分析：极稀少离群数据定义为在筛选出的离群数据中仍然数量相对较少的一类数据。
2.根据权利要求1所述的一种大规模数据中离群数据的分析方法，其特征在于设计结构包括:离群成团分析、极稀少数据的搜寻、离群数据的可视化分析；对大规模数据中离群数据进行样本分组、样本约减、模板生成、模板筛选类别标记五个阶段的分析；筛选完离群数据之后，首先将所有离群数据进行无监督分类；选取样本数量小于一定数量的簇中对应的样本作为候选样本集一；对每个簇的簇心数据及其中的样本数据进行分析，进而分析得到该簇中离群数据普遍存在的异常特征；对簇中的所有样本数据计算局部孤立性因子，然后选取簇中因子较...

【专利技术属性】
技术研发人员：韦鹏，吴楠，付兴旺，
申请(专利权)人：浪潮电子信息产业股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人