异常数据检测方法及装置、电子设备制造方法及图纸

技术编号:31017897 阅读:17 留言:0更新日期:2021-11-30 03:01
本申请实施例提供一种异常数据检测方法及装置、电子设备。所述方法包括:计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;将所述共现频率低于预设阈值的取值对确定为异常取值对;以数据列为节点、异常取值对为连接关系、可信权值为节点权值,构建关系网络;基于所述节点权值,计算所述关系网络中各节点的异常分;将异常分大于阈值的节点对应的数据列确定为异常数据列;其中,所述异常数据列中的数据为异常数据。所述异常数据列中的数据为异常数据。所述异常数据列中的数据为异常数据。

【技术实现步骤摘要】
异常数据检测方法及装置、电子设备


[0001]本申请实施例涉及计算机
,尤其涉及一种异常数据检测方法及装置、电子设备。

技术介绍

[0002]数据质量管理是数据治理系统的重要手段。在原始数据中存在各种形式的脏数据(Dirty Read),所述脏数据是指无实际业务意义、或者数据格式非法、或者存在不规范的编码、业务逻辑不清等异常情况的数据。如果不对脏数据进行处理,可能会对后续的数据应用造成较大的影响,甚至造成错误的决策。所述脏数据也可以称为异常数据。
[0003]解决脏数据问题的第一步,需要定位脏数据,即检测出数据中存在的异常数据;进一步才可以基于对脏数据的分析,对脏数据提出修复的建议。
[0004]在相关技术中,通常需要依靠人工的计算分析来实现对脏数据的检测,存在检测效果低的问题。
[0005]因此,需要提供一种高效的定位异常数据的方案。

技术实现思路

[0006]为了解决异常数据的检测效率低的问题,本说明书实施例提供的一种异常数据检测方法及装置、电子设备。
[0007]根据本说明书实施例的第一方面,提供一种异常数据检测方法,所述方法包括:
[0008]计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合;
[0009]将所述共现频率低于预设阈值的取值对确定为异常取值对;
[0010]以数据列为节点、异常取值对为连接关系、可信权值为节点权值,构建关系网络;
[0011]基于所述节点权值,计算所述关系网络中各节点的异常分;
[0012]将异常分大于阈值的节点对应的数据列确定为异常数据列;其中,所述异常数据列中的数据为异常数据。
[0013]根据本说明书实施例的第二方面,提供一种异常数据检测装置,所述装置包括:
[0014]第一计算模块,用于计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合;
[0015]第一确定模块,用于将所述共现频率低于预设阈值的取值对确定为异常取值对;
[0016]网络构建模块,用于以数据列为节点、异常取值对为连接关系、可信权值为节点权值,构建关系网络;
[0017]第二计算模块,用于基于所述节点权值计算所述关系网络中各节点的异常分;
[0018]第二确定模块,用于将异常分大于阈值的节点对应的数据列确定为异常数据列;
其中,所述异常数据列中的数据为异常数据。
[0019]根据本说明书实施例的第三方面,提供一种电子设备,包括:
[0020]处理器;
[0021]用于存储处理器可执行指令的存储器;
[0022]其中,所述处理器被配置为上述任一项异常数据检测方法。
[0023]本说明书实施例提供了异常数据检测方案,可以提高异常数据的检测效率,快速且准确地从原始数据中检测出异常数据。具体利用异常数据在数据表中共现频率低的特点;以数据列为节点,以共现频率低的取值对为连接关系构建关系网络,进而利用数据列的可信权值定位关系网络中异常节点,从而确定异常节点对应的数据列为异常数据列,所述异常数据列中的数据为异常数据。
附图说明
[0024]图1是本说明书一实施例提供的异常数据检测方法的流程图;
[0025]图2是本说明书一实施例提供的关系网络的示意图;
[0026]图3是本说明书一实施例提供的全流程示意图;
[0027]图4是本说明书一实施例提供的异常数据检测装置的硬件结构图;
[0028]图5是本说明书一实施例提供的异常数据检测装置的模块示意图。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
[0030]在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0031]应当理解,尽管在本说明书可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0032]本申请旨在提供一种异常数据检测方案,用于解决数据质量管理过程中检测脏数据效率较低的问题。利用异常数据在数据表中共现频率低的特点;以数据列为节点,以共现频率低的取值对为连接关系构建关系网络,进而利用数据列的可信权值定位关系网络中异常节点,从而确定异常节点对应的数据列为异常数据列,所述异常数据列中的数据为异常数据。如此可以提高异常数据的检测效率,快速且准确地从原始数据中检测出异常数据。
[0033]以下可以参考图1所示的一种异常数据检测方法为例加以介绍,所述方法可以包括以下步骤:
[0034]步骤110:计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合。
[0035]本实施例可以应用于异常数据检测的处理端。所述处理端可以是包括服务器、服务器集群或由服务器集群构建的云平台。
[0036]本实施例可以用于检测数据表中的异常数据,利用数据表中异常取值对与数据表中正常取值对的共现频率低的特点,需要计算数据列中各取值对的共现频率。
[0037]在一示出的实施例中,计算所述数据列中各取值对的共现频率,可以包括:
[0038]获取数据表下,相同数据行中不同数据列的两两取值组合,得到所述数据列中各取值对;
[0039]计算所有取值对中,每种取值对的出现次数;
[0040]将每种取值对的出现次数除以所有取值对的总数,得到每种取值对的共现频率。
[0041]在一示出的实施例中,计算待检测的数据表中数据列的可信权值,可以包括:
[0042]计算待检测的数据表中数据列的数据分布;
[0043]在所述数据分布符合预设分布规律时,将所述预设分布规律对应的可信权值确定为所述数据列的可信权值。
[0044]在实际应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,所述方法包括:步骤110,计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合;步骤120,将所述共现频率低于预设阈值的取值对确定为异常取值对;步骤130,以数据列为节点、异常取值对为连接关系、可信权值为节点权值,构建关系网络;步骤140,基于所述节点权值,计算所述关系网络中各节点的异常分;步骤150,将异常分大于阈值的节点对应的数据列确定为异常数据列;其中,所述异常数据列中的数据为异常数据。2.根据权利要求1所述的方法,其特征在于,所述计算待检测的数据表中数据列的可信权值,包括:计算待检测的数据表中数据列的数据分布;在所述数据分布符合预设分布规律时,将所述预设分布规律对应的可信权值确定为所述数据列的可信权值。3.根据权利要求1所述的方法,其特征在于,所述计算待检测的数据表中数据列的可信权值,包括:计算待检测的数据表中数据列的取值类型;将所述取值类型对应的可信权值确定为所述数据列的可信权值。4.根据权利要求1所述的方法,其特征在于,所述基于所述节点权值,计算所述关系网络中各节点的异常分,包括:针对每个节点,计算与之连接的邻接节点的节点权值之和;将所述节点权值之和确定为节点的异常分。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述共现频率高于预设阈值,且可信权值大于可信阈值的取值对作为参考取值对存储到参考词典。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:步骤160,基于所述参考词典,对所述异常数据列中的数据进行修正。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:在修正所述异常数据列中的数据之后,重新执行所述步骤110至步骤160,直至没有异常数据列。8.根据权利要求6所述的方法,其特征在于,所述基于所述参考词典,对所述异常数据列中的数据进行修正,包括:确定异常数据列对应在所述关系网络中节点的邻接节点;查询所述参考词典中,所述邻接节点对应数据列的取值对;将所述参考词典中邻接节点对应数据列的取值对,作为修正数据覆盖所述异常数据列中的数据。9.根据权利要求1所述的方法,其特征在于,所述计算所述数据列中各取值对的共现频率,包括:
针对枚举型取值的数据列,计算数据列中各取值对的共现频率。10.根据权利要求1所述的方法,其特征在于,所述将异常分大于阈值的节点对应的数据列确定为异常数据列,包括:将异常分最大的节点对应的数据列确定为异常数据列。11.一种异常数据检测装置,其特征在于,所述装置包括:第一计算模块,用于计算待检测的数据表中数据列的可信权值和所述...

【专利技术属性】
技术研发人员:徐鹏飞
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1