当前位置: 首页 > 专利查询>清华大学专利>正文

一种数据中的异常数据点的检测方法及系统技术方案

技术编号:18351258 阅读:106 留言:0更新日期:2018-07-02 01:02
本发明专利技术提供一种数据中的异常数据点的检测方法及系统。方法包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。本发明专利技术提供的方法及系统,通过初步确定数据点的近邻点集合后,利用统计学思想检测近邻点集合中的异常近邻点,遍历所有的数据点,将异常近邻点检测结果进行聚合操作,检测得到最终的异常数据点,提高了异常数据点的检测的精确度,且该方法的实施过程较为简便,易于在各种大数据现场执行。

【技术实现步骤摘要】
一种数据中的异常数据点的检测方法及系统
本专利技术涉及数据检测
,更具体地,涉及一种数据中的异常数据点的检测方法及系统。
技术介绍
近年来,随着信息技术的发展,各类数据如物联网数据等呈现出海量增长的趋势。如何利用如此大量的数据已经成为了学界以及工业界重点关注的问题,新颖实用的算法层出不穷,各大公司也相继推出了许多大数据分析软件。在数据的生命周期(产生、储存、加工、使用)中,可能会因各种原因导致数据产生偏差,例如,导致数据出现不一致、不完整和不准确等异常情况。将存在异常情况的数据称为异常数据,异常数据的存在将会不可避免地影响算法以及数据分析软件得到的分析结果。而在实际中,由于数据质量问题造成的损失不容小视。在这样的背景下,数据质量已经成为了一个重要的研究方向,将数据进行清洗得到高质量的数据是在数据分析前必不可少的流程。数据清洗可以粗略地分为异常数据检测与异常数据修复两个部分。异常数据检测是异常数据修复的重要前提,如果没有精确地检测出发生异常的数据,那么也不可能得到一个令人满意的修复结果。现有技术中检测异常数据点的思路主要是基于近邻思想,即认为正常的数据点往往会拥有更多的近邻点(即距离较近的数据点)。然而,这种方法往往只根据数据点的近邻点集合中近邻点的个数,判断该数据点是否为异常,而数据点的近邻点集合中往往存在一些异常近邻点,因此,现有技术中对于异常数据点的检测存在不精确的问题。
技术实现思路
本专利技术提供一种克服现有技术中对于异常数据点的检测不准确的问题的数据中的异常数据点的检测方法及系统。根据本专利技术的一个方面,提供一种数据中的异常数据点的检测方法,包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。根据本专利技术的另一个方面,提供一种数据中的异常数据点的检测系统,包括:近邻点集合确定模块,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;归一距离分布确定模块,用于根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;异常数据点确定模块,用于基于所有归一距离分布,检测出所述数据中的异常数据点。根据本专利技术的再一个方面,提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。根据本专利技术的又一个方面,提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述的方法。根据本专利技术的还一个方面,提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。本专利技术提供的一种数据中的异常数据点的检测方法及系统,通过初步确定数据点的近邻点集合后,利用统计学思想检测近邻点集合中的异常近邻点,遍历所有的数据点,将异常近邻点检测结果进行聚合操作,检测得到最终的异常数据点,提高了异常数据点的检测的精确度,且该方法的实施过程较为简便,易于在各种大数据现场执行。附图说明图1为根据本专利技术实施例提供的一种数据中的异常数据点的检测方法流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。图1为根据本专利技术实施例提供的一种数据中的异常数据点的检测方法流程图,如图1所示,该方法包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。针对现有技术中对于异常数据点的检测存在不精确的问题,本实施例在初步确定了数据点的近邻点集合后,利用统计学思想来检测近邻点集合中的异常近邻点。数据由多个数据点组成,本实施例的目的在于检测数据中的异常数据点。令数据P为P={p1,p2,...,pn},p1,p2,...,pn为多个数据点。数据的总属性集合R为R=(A1,A2,…,An),A1,A2,…,An为多个属性,将总属性集合人为地划分为第一属性集合和第二属性集合。例如,将第一属性集合称为X集合,将第二属性集合称为Y集合,X集合可以为X=(A1,A2,…,Am),Y集合可以为Y=(Am+1,Am+2,…,An)。值得注意的是,第一属性集合与第二属性集合交集必须为空集,但两者的并集不必等于数据的总属性集合R。检测数据中的异常数据点的方法为:对于数据中的每一数据点,根据第一属性集合,获取数据点的近邻点集合。其中,近邻点集合可以为空集,也可以包括一个或多个近邻点。若近邻点集合为空集,则判定该数据点为异常数据点;若近邻点集合包括一个或多个近邻点,则需对近邻点集合进行后续处理,以检测出所述数据中的异常数据点。其中,近邻点是指与数据点在第一属性集合上的距离小于预设距离阈值的数据点。需要说明的是,本实施例以及以下实施例中的距离均指属性距离。例如,将第一属性集合称为X集合,将第二属性集合称为Y集合,对于数据点称为pi,数据点pj与数据点pi在X集合上的距离为若该距离小于预设距离阈值d,则将数据点pj作为数据点pi的近邻点。按照上述方法,获取数据点pi与数据中的其他数据点中每一数据点的距离,进而获取数据点pi的近邻点集合。对于数据点pi的近邻点集合,获取数据点pi与自身的近邻点集合的归一距离分布。其中,归一距离分布是指归一距离的分布函数,归一距离为数据点pi的近邻点集合中的各个近邻点与数据点pi在Y集合上的距离归一化之后得到的值。对于数据中的所有数据点,按照上述过程获取所有数据点中的每一数据点的近邻点集合,集合获取每一数据点与自身的近邻点集合的归一距离分布。根据所有归一距离分布,检测出所述数据中的异常数据点。本实施例提供的一种数据中的异常数据点的检测方法,通过初步确定数据点的近邻点集合后,利用统计学思想检测近邻点集合中的异常近邻点,遍历所有的数据点,将异常近邻点检测结果进行聚合操作,检测得到最终的异常数据点,提高了异常数据点的检测的精确度,且该方法的实施过程较为简便,易于在各种大数据现场执行。基于上述实施例,步骤S1之前还包括:获取所述数据的总属性集合,将所述总属性集合划分为所述第一属性集合和所述第二属性集合;其中,所述第一属性集合和所述第二属性集合的交集为空集。具体地,数据的属性集合R为R=(A1,A2,…,An),将第一属性集合称为X集合,将第二属性集合称为Y集合,需要说明的是,X集合与Y集合的并集可以为属性集合R,也可为属性集合R的子集。基于上述实施例,本实施例对步骤S1进行进一步说明,步骤S1进一步包括:S11,对于所述数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点与所述数据中的每一其他数据点间的距离值;S12,在所有距离值中,将所述所有距离值中的最大值作为最大距离值;S13,将每一距离本文档来自技高网...
一种数据中的异常数据点的检测方法及系统

【技术保护点】
1.一种数据中的异常数据点的检测方法,其特征在于,包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。

【技术特征摘要】
1.一种数据中的异常数据点的检测方法,其特征在于,包括:S1,对于数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点的近邻点集合;S2,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合的归一距离分布;S3,基于所有归一距离分布,检测出所述数据中的异常数据点。2.根据权利要求1所述的方法,其特征在于,步骤S1之前还包括:S0,获取所述数据的总属性集合,将所述总属性集合划分为所述第一属性集合和所述第二属性集合;其中,所述第一属性集合和所述第二属性集合的交集为空集。3.根据权利要求1所述的方法,其特征在于,步骤S1进一步包括:S11,对于所述数据中的每一数据点,根据所述数据的第一属性集合,获取所述数据点与所述数据中的每一其他数据点间的距离值;S12,在所有距离值中,将所述所有距离值中的最大值作为最大距离值;S13,将每一距离值与所述最大距离值进行除法运算,以获取所述数据点与所述每一其他数据点间的归一距离值;S14,将每一归一距离值与预设距离阈值进行比对,若所述归一距离值小于所述预设距离阈值,则将所述归一距离值对应的其他数据点作为所述数据点的近邻点;并将所述数据点的所有近邻点,作为所述数据点的近邻点集合。4.根据权利要求1所述的方法,其特征在于,步骤S2进一步包括:S21,根据所述数据的第二属性集合,获取所述数据点与自身的近邻点集合中每一近邻点的距离值;S22,在所有距离值中,将所述所有距离值中的最大值作为最大距离值;S23,将每一距离值与所述最大距离值进行除法运算,以获取所述数据点与所述每一近邻点间的归一距离值;S24,根据所有归一距离值,获取所述数据点与自...

【专利技术属性】
技术研发人员:王建民宋韶旭梅逸男
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1