使用CFDs的数据清洗方法、计算机设备和可读存储介质技术

技术编号:24707901 阅读:75 留言:0更新日期:2020-06-30 23:57
本发明专利技术涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质,该方法包括:从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;基于训练集发现常量CFD和变量CFD,求得初步CFD集;寻找初步CFD集中无冲突的最大相容规则子集;根据最大相容规则子集对待清洗的大数据集进行清洗。本发明专利技术提供的方法适用于大于内存的大数据集清理,能够在一次扫描数据过程中,选择一个小型但有代表性的训练集,计算效率更高,并在发现规则的过程里容忍训练集中的脏的记录,实用性好。

【技术实现步骤摘要】
使用CFDs的数据清洗方法、计算机设备和可读存储介质
本专利技术涉及数据处理
,尤其涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质。
技术介绍
数据是信息的表现形式和载体,人类活动与数据密不可分。近年来,随着数据的积累,数据库越来越大,例如使用关系型数据库的信息系统。与此同时,由于手工维护的困难以及数据来源的多样性,大数据集中难免会录入一些错误项(即脏的记录),影响数据库质量,对使用造成一定的困难。因此,大数据清理非常重要。为了提高数据库内数据一致性,通常做法是创建一组数据质量规则。一旦数据库中存在不一致项,就会违反其中某些规则,因此就会被发现并得以修正。函数依赖FDs是数据修复和数据清洗中需要用到的重要约束规则,可以找到各项之间的隐藏关系。这种关系有助于找出错误项,并对其进行相应的修改。条件函数依赖(CFDs)可以看作是FDs的特殊形式。高质量的规则是使用CFDs进行有效的数据清洗系统的核心。由于数据质量规则集可能包含冲突,所以需要找到一致的约束规则(即最大一致子集)作为数据质量规则。这个问题的计算复杂度很本文档来自技高网...

【技术保护点】
1.一种使用CFDs的数据清洗方法,其特征在于,包括如下步骤:/nS1、从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;/nS2、基于训练集发现常量CFD和变量CFD,求得初步CFD集;/nS3、寻找初步CFD集中无冲突的最大相容规则子集;/nS4、根据最大相容规则子集对待清洗的大数据集进行清洗。/n

【技术特征摘要】
1.一种使用CFDs的数据清洗方法,其特征在于,包括如下步骤:
S1、从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;
S2、基于训练集发现常量CFD和变量CFD,求得初步CFD集;
S3、寻找初步CFD集中无冲突的最大相容规则子集;
S4、根据最大相容规则子集对待清洗的大数据集进行清洗。


2.根据权利要求1所述的方法,其特征在于,所述步骤S1中从待清洗的大数据集中进行抽样时,采用如下方式:
S1-1、设训练集包括n组样本,每组样本数为m,并将大数据集的前m个元组作为训练集第一组样本;
S1-2、从大数据集的第m+1个元组开始扫描所有元组;
若该元组与训练集一组样本中的一个样本进行比较,二者具有的相同属性个数超过第一阈值,则执行步骤S1-3;
若该元组与训练集中任意样本进行比较,二者具有的相同属性个数均没有超过第一阈值,则执行步骤S1-4;
S1-3、进行判断,将该元组放入训练集该组样本之中,或将其舍弃;
S1-4、进一步检查该组每一个样本,若存在一个样本与该元组进行比较,二者具有的相同属性个数不少于第二阈值,则将该元组放入训练集下一组样本之中,否则将该元组舍弃。


3.根据权利要求2所述的方法,其特征在于,所述步骤S1-3进一步包括:
若进行比较时,训练集该组样本已有的样本数目不足m个,则直接将该元组加入训练集该组样本之中;
若进行比较时,训练集该组样本已有的样本数目已满m个,则生成随机数,根据随机数大小判断,将该元组加入训练集该组样本之中进行替换,或将其舍弃。


4.根据权利要求2所述的方法,其特征在于,所述步骤S1还包括:
S1-5、若训练集已有n×m个样本,而大数据集中依然有待扫描的元组,则在扫描新一个元组时,先生成随机数并进行判断,若随机数不...

【专利技术属性】
技术研发人员:王宏志李明达丁小欧
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1