【技术实现步骤摘要】
异常数据检测方法及装置、电子设备
[0001]本申请实施例涉及计算机
,尤其涉及一种异常数据检测方法及装置、电子设备。
技术介绍
[0002]数据质量管理是数据治理系统的重要手段。在原始数据中存在各种形式的脏数据(Dirty Read),所述脏数据是指无实际业务意义、或者数据格式非法、或者存在不规范的编码、业务逻辑不清等异常情况的数据。如果不对脏数据进行处理,可能会对后续的数据应用造成较大的影响,甚至造成错误的决策。所述脏数据也可以称为异常数据。
[0003]解决脏数据问题的第一步,需要定位脏数据,即检测出数据中存在的异常数据;进一步才可以基于对脏数据的分析,对脏数据提出修复的建议。
[0004]在相关技术中,通常需要依靠人工的计算分析来实现对脏数据的检测,存在检测效果低的问题。
[0005]因此,需要提供一种高效的定位异常数据的方案。
技术实现思路
[0006]为了解决异常数据的检测效率低的问题,本说明书实施例提供的一种异常数据检测方法及装置、电子设备。
[0007]根据本说明书实施例的第一方面,提供一种异常数据检测方法,所述方法包括:
[0008]计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合;
[0009]将所述共现频率低于预设阈值的取值对确定为异常取值对;
[0010]以数据列为节点、异常取值对为连接关系、可信权 ...
【技术保护点】
【技术特征摘要】
1.一种异常数据检测方法,其特征在于,所述方法包括:步骤110,计算待检测的数据表中数据列的可信权值,和所述数据列中各取值对的共现频率;其中,所述可信权值表示数据列中数据的可信程度,所述取值对包括相同数据行中不同数据列的两两取值组合;步骤120,将所述共现频率低于预设阈值的取值对确定为异常取值对;步骤130,以数据列为节点、异常取值对为连接关系、可信权值为节点权值,构建关系网络;步骤140,基于所述节点权值,计算所述关系网络中各节点的异常分;步骤150,将异常分大于阈值的节点对应的数据列确定为异常数据列;其中,所述异常数据列中的数据为异常数据。2.根据权利要求1所述的方法,其特征在于,所述计算待检测的数据表中数据列的可信权值,包括:计算待检测的数据表中数据列的数据分布;在所述数据分布符合预设分布规律时,将所述预设分布规律对应的可信权值确定为所述数据列的可信权值。3.根据权利要求1所述的方法,其特征在于,所述计算待检测的数据表中数据列的可信权值,包括:计算待检测的数据表中数据列的取值类型;将所述取值类型对应的可信权值确定为所述数据列的可信权值。4.根据权利要求1所述的方法,其特征在于,所述基于所述节点权值,计算所述关系网络中各节点的异常分,包括:针对每个节点,计算与之连接的邻接节点的节点权值之和;将所述节点权值之和确定为节点的异常分。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述共现频率高于预设阈值,且可信权值大于可信阈值的取值对作为参考取值对存储到参考词典。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:步骤160,基于所述参考词典,对所述异常数据列中的数据进行修正。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:在修正所述异常数据列中的数据之后,重新执行所述步骤110至步骤160,直至没有异常数据列。8.根据权利要求6所述的方法,其特征在于,所述基于所述参考词典,对所述异常数据列中的数据进行修正,包括:确定异常数据列对应在所述关系网络中节点的邻接节点;查询所述参考词典中,所述邻接节点对应数据列的取值对;将所述参考词典中邻接节点对应数据列的取值对,作为修正数据覆盖所述异常数据列中的数据。9.根据权利要求1所述的方法,其特征在于,所述计算所述数据列中各取值对的共现频率,包括:
针对枚举型取值的数据列,计算数据列中各取值对的共现频率。10.根据权利要求1所述的方法,其特征在于,所述将异常分大于阈值的节点对应的数据列确定为异常数据列,包括:将异常分最大的节点对应的数据列确定为异常数据列。11.一种异常数据检测装置,其特征在于,所述装置包括:第一计算模块,用于计算待检测的数据表中数据列的可信权值和所述...
【专利技术属性】
技术研发人员:徐鹏飞,
申请(专利权)人:杭州数梦工场科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。