【技术实现步骤摘要】
使用CFDs的数据清洗方法、计算机设备和可读存储介质
本专利技术涉及数据处理
,尤其涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质。
技术介绍
数据是信息的表现形式和载体,人类活动与数据密不可分。近年来,随着数据的积累,数据库越来越大,例如使用关系型数据库的信息系统。与此同时,由于手工维护的困难以及数据来源的多样性,大数据集中难免会录入一些错误项(即脏的记录),影响数据库质量,对使用造成一定的困难。因此,大数据清理非常重要。为了提高数据库内数据一致性,通常做法是创建一组数据质量规则。一旦数据库中存在不一致项,就会违反其中某些规则,因此就会被发现并得以修正。函数依赖FDs是数据修复和数据清洗中需要用到的重要约束规则,可以找到各项之间的隐藏关系。这种关系有助于找出错误项,并对其进行相应的修改。条件函数依赖(CFDs)可以看作是FDs的特殊形式。高质量的规则是使用CFDs进行有效的数据清洗系统的核心。由于数据质量规则集可能包含冲突,所以需要找到一致的约束规则(即最大一致子集)作为数据质量规则。这 ...
【技术保护点】
1.一种使用CFDs的数据清洗方法,其特征在于,包括如下步骤:/nS1、从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;/nS2、基于训练集发现常量CFD和变量CFD,求得初步CFD集;/nS3、寻找初步CFD集中无冲突的最大相容规则子集;/nS4、根据最大相容规则子集对待清洗的大数据集进行清洗。/n
【技术特征摘要】
1.一种使用CFDs的数据清洗方法,其特征在于,包括如下步骤:
S1、从待清洗的大数据集中进行抽样,在一次扫描中获得训练集;
S2、基于训练集发现常量CFD和变量CFD,求得初步CFD集;
S3、寻找初步CFD集中无冲突的最大相容规则子集;
S4、根据最大相容规则子集对待清洗的大数据集进行清洗。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中从待清洗的大数据集中进行抽样时,采用如下方式:
S1-1、设训练集包括n组样本,每组样本数为m,并将大数据集的前m个元组作为训练集第一组样本;
S1-2、从大数据集的第m+1个元组开始扫描所有元组;
若该元组与训练集一组样本中的一个样本进行比较,二者具有的相同属性个数超过第一阈值,则执行步骤S1-3;
若该元组与训练集中任意样本进行比较,二者具有的相同属性个数均没有超过第一阈值,则执行步骤S1-4;
S1-3、进行判断,将该元组放入训练集该组样本之中,或将其舍弃;
S1-4、进一步检查该组每一个样本,若存在一个样本与该元组进行比较,二者具有的相同属性个数不少于第二阈值,则将该元组放入训练集下一组样本之中,否则将该元组舍弃。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1-3进一步包括:
若进行比较时,训练集该组样本已有的样本数目不足m个,则直接将该元组加入训练集该组样本之中;
若进行比较时,训练集该组样本已有的样本数目已满m个,则生成随机数,根据随机数大小判断,将该元组加入训练集该组样本之中进行替换,或将其舍弃。
4.根据权利要求2所述的方法,其特征在于,所述步骤S1还包括:
S1-5、若训练集已有n×m个样本,而大数据集中依然有待扫描的元组,则在扫描新一个元组时,先生成随机数并进行判断,若随机数不...
【专利技术属性】
技术研发人员:王宏志,李明达,丁小欧,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:黑龙;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。