【技术实现步骤摘要】
数据修复方法、装置及数据处理设备
[0001]本申请涉及大数据处理
,具体而言,涉及一种数据修复方法、装置及数据处理设备。
技术介绍
[0002]在大数据处理过程中,常需要对从多个不同的数据源获取数据进行整合处理,但是从不同渠道获取到的数据的数据质量往往不同,有的数据源有比较好的数据质量,有的数据源的数据质量很差,比如在人参与的数据存储、拷贝、修复过程中可能会出现数据信息的错误填写、信息丢失、错误修复等问题。当从不同的渠道拿到待处理数据后,如何有效识别这些有问题的数据和修复这些数据十分重要。
[0003]传统的修复数据的方法通常是在发现数据信息之间发生冲突时通过人工询问的方式获取上游数据源,通过调查数据错误的根源来重新修复数据,这种方式对于数据生成时间较短且能找到上下游相关的参与方且数据规模很小的情况下有用,但是在大数据时代,数据规模庞大,有的数据历史悠久,已经很难通过人员向上下游询问的方式来修复数据问题。
技术实现思路
[0004]为了克服现有技术中的上述不足,本申请的目的在于提供一种数据修复 ...
【技术保护点】
【技术特征摘要】
1.一种数据修复方法,其特征在于,所述方法包括:从至少两个不同的渠道获取多条待处理数据;每条待处理数据包括至少两个属性及相应的属性值;确定所述待处理数据的标识属性和一般属性;将每条所述待处理数据作为节点构建带权无向图,其中,具有至少一个标识属性值相同的节点之间具有连线,所述连线的权重值和节点之间具有相同属性值的标识属性的个数正相关;通过连通图算法,对所述带权无向图进行连通子图检测和拆分,获得连通子图的集合;若所述连通子图中存在所述标识属性的有效属性值不一致的节点,则将该连通子图标识为信息冲突子图;针对每个所述信息冲突子图,通过社区检测算法对所述信息冲突子图中的节点进行社区划分;针对所述信息冲突子图中具有连线且位于不同的社区的一对冲突节点,将该连线对应标识属性作为冲突属性,通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对每个所述信息冲突子图中的每个社区,统计每个属性中不同属性值出现的频率,将该社区中存在属性的属性值缺失的节点,使用该社区中该属性出现频率最高的属性值补全该属性。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述多条待处理数据进行属性整合增补,使每条所述待处理数据具有相同数量的属性。4.根据权利要求1所述的方法,其特征在于,所述通过修改所述一对冲突节点中该冲突属性的属性值以解除该一对冲突节点之间的连线关系的步骤,包括:针对所述一对冲突节点中的每个冲突节点,统计所述冲突节点所在的社区中所述冲突属性的不同属性值出现的概率,使用出现概率最高的属性值替代该冲突节点中所述冲突属性的属性值。5.根据权利要求1所述的方法,其特征在于,在所述将每条所述待处理数据作为节点构建带权无向图的步骤之前,所述方法还包括:针对从同一渠道获取的待处理数据,对获取到的待处理数据进行去重处理。6.根据权利要求1所述的方法,其特征在于,所述确定所述待处理数据的标识属性和一般属性的步骤,包括:针对每个属性,通过以下公式计算该属性的区分度值D:其中,A为待处理数据的总条数,Dis(A)为该属性的有效值去重后数量;若该属性的区分度值D大于预设区分度阈值,则将该属性标识为标识属性,否则将该属性标识为一般属性。
7.根据权利要求1所述的方法,其特征在于,所述将每条所述待处理数据作为节点构建带权无向图的步骤,包括:将每条所述待处理数据作为节点,在具有属性值相同的标识属性值的节点之间构...
【专利技术属性】
技术研发人员:顾凌云,郭志攀,王伟,严锟,
申请(专利权)人:成都冰鉴信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。