一种基于最大依赖集和属性相关性不一致数据清洗方法技术

技术编号:21361109 阅读:46 留言:0更新日期:2019-06-15 09:17
本发明专利技术属于数据处理技术领域,公开了一种基于最大依赖集和属性相关性不一致数据清洗方法;通过发掘依赖中包含的隐性依赖得到最大依赖集MDS;对数据实例中的不一致数据进行检测与定位;根据最小代价思想建立待修复属性优先序列PQ,将无冲突数据实例Inv作为训练集,学习属性之间存在的相关性SU,利用相关性计算元组之间的加权距离WDis,根据距离选择类别元组并通过改进的KNN算法进行修复。本发明专利技术提高了算法对连续属性的适用性和检测精度,在不一致数据修复阶段,本发明专利技术有效的提高算法修复能力,保证了算法的收敛性。本发明专利技术修复后的数据实例中残余的不一致数据元素很少,甚至多次得到一致的修复结果。

A Data Cleaning Method Based on Maximum Dependency Set and Attribute Dependency Inconsistency

The invention belongs to the field of data processing technology, and discloses a method for cleaning inconsistent data based on maximum dependency set and attribute correlation; obtains maximum dependency set MDS by exploring implicit dependencies contained in dependencies; detects and locates inconsistent data in data instances; establishes priority sequence PQ of attributes to be repaired according to the idea of minimum cost, and makes an example Inv of conflict-free data as an example. For the training set, the correlation SU between learning attributes is used to calculate the weighted distance WDis between tuples, select the category tuples according to the distance and repair them by improved KNN algorithm. The invention improves the applicability and detection accuracy of the algorithm for continuous attributes. In the phase of inconsistent data restoration, the invention effectively improves the repair ability of the algorithm and ensures the convergence of the algorithm. The remnant inconsistent data elements in the repaired data example of the invention are very few, and even uniform repairing results are obtained many times.

【技术实现步骤摘要】
一种基于最大依赖集和属性相关性不一致数据清洗方法
本专利技术属于数据处理
,尤其涉及一种基于最大依赖集和属性相关性不一致数据清洗方法。
技术介绍
目前,业内常用的现有技术是这样的:随着社会信息化建设的飞速发展,依赖各式各样的信息系统进行数据存储、数据分析和辅助决策在信息化社会占据着十分重要的地位。互联网时代由于信息系统对数据的需求增多,数据采集和更新周期不断缩短,使得数据规模也不断扩大,如何解决大数据伴随的数据质量问题,是政府部门、企事业单位亟待解决的难题。在数据质量领域,数据的一致性是指给定数据集对约束的满足程度或多源数据融合时同一事物描述的一致程度。在本专利技术中,不一致数据是指数据集不满足给定的数据约束、条件函数依赖和条件谓词依赖。不一致数据不能正确的表达数据元素的真实状态,破坏了客观事物之间存在的关联关系,降低了数据的价值。针对数据库中的不一致数据问题,目前大多基于函数依赖或条件函数依赖进行不一致数据检测,然后通过人工干预、删除不一致元组以及最小修复代价思想等方式进行修复。当前不一致数据的检测与修复主要面临两方面挑战:(1)随着数据规模的逐渐扩大以及数据约束的不断增多,本文档来自技高网...

【技术保护点】
1.一种基于最大依赖集和属性相关性不一致数据清洗方法,其特征在于,所述的基于最大依赖集和属性相关性不一致数据清洗方法包括以下步骤:步骤一:在不一致数据检测方面,通过发掘依赖中包含的隐性依赖得到最大依赖集MDS;步骤二:对数据实例中的不一致数据进行检测与定位,提出动态值域调整的方法改进现有算法的枚举过程;步骤三:对已定位的不一致数据,根据最小代价思想建立待修复属性优先序列PQ,将无冲突数据实例Inv作为训练集,学习属性之间存在的相关性SU,利用相关性计算元组之间的加权距离WDis,根据距离选择类别元组并通过改进的KNN算法进行修复。

【技术特征摘要】
1.一种基于最大依赖集和属性相关性不一致数据清洗方法,其特征在于,所述的基于最大依赖集和属性相关性不一致数据清洗方法包括以下步骤:步骤一:在不一致数据检测方面,通过发掘依赖中包含的隐性依赖得到最大依赖集MDS;步骤二:对数据实例中的不一致数据进行检测与定位,提出动态值域调整的方法改进现有算法的枚举过程;步骤三:对已定位的不一致数据,根据最小代价思想建立待修复属性优先序列PQ,将无冲突数据实例Inv作为训练集,学习属性之间存在的相关性SU,利用相关性计算元组之间的加权距离WDis,根据距离选择类别元组并通过改进的KNN算法进行修复。2.如权利要求1所述的基于最大依赖集和属性相关性不一致数据清洗方法,其特征在于,所述动态过程提高算法的修复效率并引入标签flag对已修复数据进行标记。3.如权利要求1所述的基于最大依赖集和属性相关性不一致数据清洗方法,其特征在于,所述步骤一中,获取MDS是整个DLA算法的核心,对包含N个属性的数据元组T(T1,T2,T3,...,TN)和初始依赖集D,选择初始属性Ti,生成rcfdp的数学形式如下:式中,Aj表示第j个属性的取值空间,表示不满足依赖d的第j个属性的取值空间;以WS作为start_attr,和为输入,得到过程如下:其中对ES、WS和AGE属性的“∪”和“∩”运算涉及指针的合并过程,原理与数轴上区间的合并相似。4.如权利要求1所述的基于最大依赖集和属性相关性不一致数据清洗方法,其特征在于,所述步骤三中,根据IDS中数据元素违反依赖的数目维护PQ表,每次修复选择PQ中的第一个数据元素进行修复。5.如权利要求1所述的基于最大依赖集和属性相关性...

【专利技术属性】
技术研发人员:戴超凡李沛王文倩
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1