离群点检测方法和系统技术方案

技术编号:16499742 阅读:53 留言:0更新日期:2017-11-04 11:13
本发明专利技术涉及一种离群点检测方法和系统。所述方法包括步骤:获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;从所述样本空间选取若干个样本点作为对应簇的中心点;计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;根据所述距离确定未被选取的每个样本点所属的簇;将不属于任何簇的样本点判定为离群点。本发明专利技术不受限于数据量的限制,即使在数据量较大时,也能准确检测出离群点。

Outlier detection method and system

The invention relates to a method and system for outlier detection. The method comprises the following steps: obtaining the detected sample space, wherein the sample space includes a plurality of samples, each sample point includes several dimensions; select some sample points from the sample space as the center point of the distance between the corresponding clusters; the weight of each sample point is selected to calculate the sample space with all the center point, which is the numerical distance weighted sample point and the center point of the number of dimensions of the same dimension and total ratio; between each sample points according to the distance weight calculation are not selected and each center distance; according to the distance of each sample point is not selected which belongs to the cluster; will not belong to any cluster samples to determine outliers. This method is not limited to the amount of data, and can detect outliers even when the amount of data is large.

【技术实现步骤摘要】
离群点检测方法和系统
本专利技术涉及离群点检测
,特别是涉及离群点检测方法和离群点检测系统。
技术介绍
离群点检测,亦称“异常点检测”,是从历史数据中找出其行为很不同于预期对象的一个检测过程,而这些对象被称为离群点或者异常点。随着科技的发展,离群点检测的应用前景越来越广泛。例如,在目前的数据科学领域中,基本上都是以数据流为导向来进行的。从数据源的获取到数据存储,然后到数据预处理,再到数据建模、数据分析与数据挖掘,最后再到数据变现。其中数据预处理的质量及准确性对于其后续的每一个步骤起着极其重要的作用,若数据存在离群点,则会直接导致数据挖掘算法过拟合,无法直接用于业务。又例如,在某些业务场景中,也会存在异常或离群对象显著的不同于其他绝大部分对象,这种情况下对数据进行异常挖掘就显得尤为重要,例如,在信用卡欺诈检测就是一个极为典型的例子,其主要目的是检测出异常对象的购买模式或行为。传统技术中,一般通过在EDA(ExploratoryDataAnalysis,探索性数据分析)阶段使用图形化工具画出散点图或者盒图等,比较直观且可以从视觉上检测出基于距离的离群点。但是通过作图的这种方式,当数本文档来自技高网...
离群点检测方法和系统

【技术保护点】
一种离群点检测方法,其特征在于,包括步骤:获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;从所述样本空间选取若干个样本点作为对应簇的中心点;计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;根据所述距离确定未被选取的每个样本点所属的簇;将不属于任何簇的样本点判定为离群点。

【技术特征摘要】
1.一种离群点检测方法,其特征在于,包括步骤:获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;从所述样本空间选取若干个样本点作为对应簇的中心点;计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;根据所述距离确定未被选取的每个样本点所属的簇;将不属于任何簇的样本点判定为离群点。2.根据权利要求1所述的离群点检测方法,其特征在于,将不属于任何簇的样本点判定为离群点之后,还包括步骤:计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;对所有的候选离群点进行筛选,获得补充的离群点。3.根据权利要求2所述的离群点检测方法,其特征在于,对所有的候选离群点进行筛选,获得补充的离群点包括:将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。4.根据权利要求2所述的离群点检测方法,其特征在于,计算每个簇的平均标准差包括:根据簇所包含的样本点的总数量、簇所包含的每个样本点在每个维度的数值以及簇所包含的所有样本点在每个维度的均值,获得每个簇在每个维度的标准差;计算每个簇所有维度的标准差的平均值,获得每个簇的平均标准差。5.根据权利要求1至4任意一项所述的离群点检测方法,其特征在于,根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离包括:根据样本点与中心点之间的距离权重的倒数、样本点的维度的数值以及中心点的维度的数值,计算未被选取的每个样本点与各个中心点之间的马氏距离。6.根据权利要求1至4任意一项所述的离群点检测方法,其特征在于,根据所述距离确定未被...

【专利技术属性】
技术研发人员:徐骄
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1