一种确定异常数据的方法及装置制造方法及图纸

技术编号:12091430 阅读:73 留言:0更新日期:2015-09-23 09:45
本发明专利技术公开了一种确定异常数据的方法,包括:根据对多维数据集的各个维度进行遍历后得到的遍历结果,将所述多维数据集分成N个与所述多维数据集维度相同的最小数据单元,并计算所有所述最小数据单元对应的空间距离值;根据所述空间距离值确定疑似异常数据集;在所述疑似异常数据集中选取一个疑似异常最小数据单元,按照维度组合递归的方法,将所述疑似异常最小数据单元、与所述疑似异常最小数据单元相邻的最小数据单元组合成疑似异常数据子集,并计算所述疑似异常数据子集中的疑似异常数据单元的空间距离差值,进而确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元。本发明专利技术还公开了一种确定异常数据的装置。

【技术实现步骤摘要】

本专利技术涉及多维数据分析技术,尤其涉及一种确定异常数据的方法及装置
技术介绍
在数据分析和数据挖掘领域中,多维数据分析是非常重要的一个方面,所述多维 数据分析能够从复杂的多维数据中发现存在的问题或潜在的商机。 现有技术中,对多维数据集进行分析的方法有三种:第一,将多维数据集进行降 维,采用决策树等算法对多维数据集进行分析;第二,采用神经网络等复杂模拟算法对多维 数据集进行分析;第三,根据专家经验对多维数据集进行分析。但上述方法存在下述问题: (a)现有分析过程复杂,耗费时间长,甚至需要借助外部工具对多维数据集进行复 杂的数据建模; (b)技术人员需要对统计学或者数据分析等有一定基础,因此,对技术人员的技术 水平要求较高; (C)现有技术中缺少将业务人员经验和控制方法体现到数据显示过程的机制,因 此,使得输出的数据仅仅为单纯的数字信息,并不包含业务信息,非技术专业人员不能理 解,导致输出的数据可视化程度差; (d)现有对多维数据集的分析过程侧重于找出所述多维数据集中具有普遍性规律 的数据集,将具有普遍性规律的数据集进行拟合,以便对其他类似场景下的多维数据集进 行分析和预测,但此过程常忽略对异常数据的发现。
技术实现思路
为解决现有存在的技术问题,本专利技术实施例提供了一种确定异常数据的方法及装 置,能准确定位异常数据。 为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术提供了一种确定异常 数据的方法,包括: 根据对多维数据集的各个维度进行遍历后得到的遍历结果,将所述多维数据集分 成N个与所述多维数据集维度相同的最小数据单元,并计算所有所述最小数据单元对应的 空间距离值; 根据所述空间距离值确定疑似异常数据集; 在所述疑似异常数据集中选取一个疑似异常最小数据单元,按照维度组合递归的 方法,将所述疑似异常最小数据单元、与所述疑似异常最小数据单元相邻的最小数据单元 组合成疑似异常数据子集,并计算所述疑似异常数据子集中的疑似异常数据单元的空间距 离差值,比较所述空间距离差值与所述疑似异常最小数据单元的空间距离值的大小,确定 所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元; 其中,N为所述多维数据集中每个维度的维值个数的乘积。 进一步地,所述根据对多维数据集的各个维度进行遍历后得到的遍历结果之前, 所述方法还包括: 输入多维数据集,并输入控制所述多维数据集的控制规则,根据所述控制规则将 所述多维数据集转换成待处理的数据对象。 进一步地,所述根据所述空间距离值确定疑似异常数据集,包括: 根据正态分布法则将所有所述空间距离值进行拟合,并选取与拟合所述空间距离 值得到的正态分布的标准差距离最远的X个点对应的数据作为疑似异常数据,与所述疑似 异常数据对应的最小数据单元组成的集合为疑似异常数据集。 进一步地,所述计算所述疑似异常数据子集中的疑似异常数据单元的空间距离差 值,包括: 计算所述疑似异常数据子集中的疑似异常数据单元的外部空间距离值和内部空 间距离值,根据所述外部空间距离值和所述内部空间距离值计算空间距离差值。 进一步地,所述比较所述空间距离差值与所述疑似异常最小数据单元的空间距 离值的大小,确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元,包 括: 若所述空间距离差值大于所述疑似异常最小数据单元的空间距离值时,所述疑似 异常数据单元为异常数据单元; 若所述空间距离差值不大于所述疑似异常最小数据单元的空间距离值时,所述疑 似异常数据单元为正常数据单元。 进一步地,所述确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数 据单元之后,所述方法还包括: 显示异常数据集,所述异常数据集是所述疑似异常数据集中的所有疑似异常最小 数据单元通过维度组合递归的方法确定的异常最小数据单元组成的集合。 本专利技术还提供了一种确定异常数据的装置,包括: 计算单元,用于根据对多维数据集的各个维度进行遍历后得到的遍历结果,将所 述多维数据集分成N个与所述多维数据集维度相同的最小数据单元,并计算所有所述最小 数据单元对应的空间距离值;其中,N为所述多维数据集中每个维度的维值个数的乘积; 确定单元,用于根据所述空间距离值确定疑似异常数据集; 递归单元,用于在所述疑似异常数据集中选取一个疑似异常最小数据单元,按照 维度组合递归的方法,将所述疑似异常最小数据单元、与所述疑似异常最小数据单元相邻 的最小数据单元组合成疑似异常数据子集,并计算所述疑似异常数据子集中的疑似异常数 据单元的空间距离差值; 比较单元,用于比较所述空间距离差值与所述疑似异常最小数据单元的空间距离 值的大小,确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元。 进一步地,所述装置还包括: 输入单元,用于输入多维数据集,并输入控制所述多维数据集的控制规则; 转换单元,用于根据所述控制规则将所述多维数据集转换成待处理的数据对象。 进一步地,所述确定单元包括: 拟合子单元,用于根据正态分布法则将所有所述空间距离值进行拟合; 第一选取子单元,用于选取与拟合所述空间距离值得到的正态分布的标准差距离 最远的X个点对应的数据作为疑似异常数据; 确定子单元,用于将与所述疑似异常数据对应的最小数据单元组成的集合确定为 疑似异常数据集。 进一步地,所述递归单元包括:第二选取子单元,用于在所述疑似异常数据集中选 取一个疑似异常最小数据单元; 组合子单元,用于按照维度组合递归的方法,将所述疑似异常最小数据单元、与所 述疑似异常最小数据单元相邻的最小数据单元组合成疑似异常数据子集; 第一计算子单元,用于计算所述疑似异常数据子集中的疑似异常数据单元的外部 空间距离值和内部空间距离值; 第二计算子单元,用于根据所述外部空间距离值和所述内部空间距离值计算空间 距离差值。 进一步地,所述比较所述空间距离差值与所述疑似异常最小数据单元的空间距 离值的大小,确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元,包 括: 若所述空间距离差值大于所述疑似异常最小数据单元的空间距离值时,所述疑似 异常数据单元为异常数据单元; 若所述空间距离差值不大于所述疑似异常最小数据单元的空间距离值时,所述疑 似异常数据单元为正常数据单元。 进一步地,所述装置还包括: 显示单元,用于显示异常数据集;所述异常数据集是所述疑似异常数据集中的所 有疑似异常最小数据单元通过维度组合递归的方法确定的异常最小数据单元组成的集合。 与传统方法相比,本专利技术实施例所提供的确定异常数据的方法及装置,能避免对 多维数据集进行降维,由于对多维数据集进行降维的过程是信息损耗的过程,因此,本专利技术 实施例在不对多维数据集信息损耗的前提下,准确定位异常数据; 本专利技术实施例对连续型或离散型的维度不进行归一化处理,通过维度组合递归以 及延展组合在整个维度中确定异常数据,而且,本专利技术实施例根据控制规则将待处理的多 维数据集转换成元数据,建立多维数据集中的数据与控制规则的对应关系,因此,确定出的 异常数据更加准确,且确定出的异常数据能携带更多的业务信息,便于技术人员理解; 本专利技术实施例能自动在多维数据集中确定所述多维数据集的数据分布特点,进而 确定异常数据,且分析过程简单、耗费时间短、无需借助数据本文档来自技高网...
一种确定异常数据的方法及装置

【技术保护点】
一种确定异常数据的方法,其特征在于,所述方法包括:根据对多维数据集的各个维度进行遍历后得到的遍历结果,将所述多维数据集分成N个与所述多维数据集维度相同的最小数据单元,并计算所有所述最小数据单元对应的空间距离值;根据所述空间距离值确定疑似异常数据集;在所述疑似异常数据集中选取一个疑似异常最小数据单元,按照维度组合递归的方法,将所述疑似异常最小数据单元、与所述疑似异常最小数据单元相邻的最小数据单元组合成疑似异常数据子集,并计算所述疑似异常数据子集中的疑似异常数据单元的空间距离差值,比较所述空间距离差值与所述疑似异常最小数据单元的空间距离值的大小,确定所述疑似异常数据子集中的疑似异常数据单元是否为异常数据单元;其中,N为所述多维数据集中每个维度的维值个数的乘积。

【技术特征摘要】

【专利技术属性】
技术研发人员:颜海涛
申请(专利权)人:中国移动通信集团湖北有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1