一种异常数据的检测方法及装置制造方法及图纸

技术编号:20025632 阅读:31 留言:0更新日期:2019-01-06 04:30
本申请实施例公开了一种异常数据检测的方法和装置,本申请实施例首先获取数据集合,对数据集合中的每条实例数据的每个特征的原始特征值进行标准化,获得每个特征的特征值,然后根据每条实例数据对应特征的特征平均值、特征标准差,在大量实例数据中先筛选出少量的可疑数据,再针对可疑数据通过LOF算法检测异常数据,不再针对每条实例数据进行LOF算法的检测,由于可疑数据的数量要远小于实例数据的数量,从而大幅减少了LOF算法的计算量,提高了检测效率。

【技术实现步骤摘要】
一种异常数据的检测方法及装置
本申请涉及数据处理
,具体涉及一种异常数据的检测方法及装置。
技术介绍
在数据挖掘中,通常首先需要进行数据清洗,剔除数据中的无效数据以及异常数据,之后再对数据进行相应处理。在现有技术中,存在多种异常数据的检测方法,其中LOF(LocalOutlierFactor,局部异常因子)算法,是基于密度的异常数据检测方法中一个比较有代表性的算法。该算法会针对数据集中的每个数据计算一个局部异常因子LOF,来反映一个数据的异常程度。LOF值的含义是一个数据点周围数据点所处位置的数据点平均密度与该数据点所处位置的数据点平均密度之比。通过判断LOF是否接近于1来判定该数据是否是异常数据,若LOF远大于1,则认为该数据是异常数据,若LOF接近于1,则认为该数据为正常数据。但是,LOF算法中需要计算所有数据的LOF值后,才能确定出异常数据,该过程计算量巨大。
技术实现思路
有鉴于此,本申请实施例提供一种异常数据的检测方法及装置,以解决现有技术中通过LOF算法进行异常数据检测计算量巨大的技术问题。为解决上述问题,本申请实施例提供的技术方案如下:一种异常数据的检测方法,所述方法包括:获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;对每个特征的原始特征值进行标准化,获得每个特征的特征值;计算每个特征的特征值的平均值以及每个特征的特征值的标准差;根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。在一种可能的实现方式中,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;将所述目标实例数据的各个特征的加权偏差值的绝对值进行求和,得到所述目标实例数据的第三求和结果;将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;将所述目标实例数据的第f个特征的多倍标准差与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权多倍标准差;将所述目标实例数据的各个特征的加权多倍标准差进行求和,得到所述目标实例数据的第四求和结果;如果所述目标实例数据的第三求和结果大于所述目标实例数据的第四求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第三求和结果小于或等于所述目标实例数据的第四求和结果,确定所述目标实例数据不是可疑数据。在一种可能的实现方式中,所述第f个特征的权重值为所述第f个特征的原始特征值的平均值。在一种可能的实现方式中,在对每个特征的原始特征值进行标准化之前,所述方法还包括:删除所述数据集合中非数值型特征以及所述非数值型特征的原始特征值,所述非数值型特征的原始特征值为非数值型数据。一种异常数据的检测装置,所述装置包括:获取单元,用于获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;处理单元,用于对每个特征的原始特征值进行标准化,获得每个特征的特征值;计算单元,用于计算每个特征的特征值的平均值以及每个特征的特征值的标准差;第一确定单元,用于根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;第二确定单元,用于当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。在一种可能的实现方式中,所述第一确定单元具体包括:第一计算子单元,计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;第二计算子单元,用于计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;第一确定子单元,用于取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。在一种可能的实现方式中,所述第一确定单元具体包括:第三计算子单元,用于计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;第一求和子单元,用于将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;第四计算子单元,用于将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多本文档来自技高网...

【技术保护点】
1.一种异常数据的检测方法,其特征在于,所述方法包括:获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;对每个特征的原始特征值进行标准化,获得每个特征的特征值;计算每个特征的特征值的平均值以及每个特征的特征值的标准差;根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。

【技术特征摘要】
1.一种异常数据的检测方法,其特征在于,所述方法包括:获取数据集合,所述数据集合中包括至少一条实例数据,每条所述实例数据对应有相同的至少一个特征,每条所述实例数据包括每个特征的原始特征值;对每个特征的原始特征值进行标准化,获得每个特征的特征值;计算每个特征的特征值的平均值以及每个特征的特征值的标准差;根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,所述目标实例数据为任一条所述实例数据,f的取值为1至n中的每一个整数,n为特征的总数量;当确定所述目标实例数据为可疑数据,计算所述可疑数据的局部异常因子,根据所述可疑数据的局部异常因子,在所述可疑数据中确定异常数据。2.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;计算所述目标实例数据的第f个特征的偏差值的绝对值与所述第f个特征的特征值的标准差之比,得到所述目标实例数据的第f个特征的评价值;取所述目标实例数据的各个特征的评价值的最大值,如果所述最大值大于第一阈值,确定所述目标实例数据为可疑数据,如果所述最大值小于或等于所述第一阈值,确定所述目标实例数据不是可疑数据。3.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;将所述目标实例数据的各个特征的偏差值的绝对值进行求和,得到所述目标实例数据的第一求和结果;将所述目标实例数据对应的第f个特征的特征值的标准差乘以第二阈值,得到所述目标实例数据的第f个特征的多倍标准差;将所述目标实例数据的各个特征的多倍标准差进行求和,得到所述目标实例数据的第二求和结果;如果所述目标实例数据的第一求和结果大于所述目标实例数据的第二求和结果,确定所述目标实例数据为可疑数据,如果所述目标实例数据的第一求和结果小于或等于所述目标实例数据的第二求和结果,确定所述目标实例数据不是可疑数据。4.根据权利要求1所述的方法,其特征在于,所述根据目标实例数据对应的第f个特征的特征值,所述第f个特征的特征值的平均值以及所述第f个特征的特征值的标准差,确定所述目标实例数据是否为可疑数据,包括:计算目标实例数据对应的第f个特征的特征值与所述第f个特征的特征值的平均值之差,得到所述目标实例数据的第f个特征的偏差值;将所述目标实例数据的第f个特征的偏差值与所述第f个特征的权重值相乘,得到所述目标实例数据的第f个特征的加权偏差值;将所述目标...

【专利技术属性】
技术研发人员:高睿张雷
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1