使用CFDs的数据清洗方法、计算机设备和可读存储介质技术

技术编号：24707901 阅读：75 留言：0更新日期：2020-06-30 23:57

本发明专利技术涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质，该方法包括：从待清洗的大数据集中进行抽样，在一次扫描中获得训练集；基于训练集发现常量CFD和变量CFD，求得初步CFD集；寻找初步CFD集中无冲突的最大相容规则子集；根据最大相容规则子集对待清洗的大数据集进行清洗。本发明专利技术提供的方法适用于大于内存的大数据集清理，能够在一次扫描数据过程中，选择一个小型但有代表性的训练集，计算效率更高，并在发现规则的过程里容忍训练集中的脏的记录，实用性好。

全部详细技术资料下载

【技术实现步骤摘要】
使用CFDs的数据清洗方法、计算机设备和可读存储介质
本专利技术涉及数据处理
，尤其涉及一种使用CFDs的数据清洗方法、计算机设备和可读存储介质。
技术介绍
数据是信息的表现形式和载体，人类活动与数据密不可分。近年来，随着数据的积累，数据库越来越大，例如使用关系型数据库的信息系统。与此同时，由于手工维护的困难以及数据来源的多样性，大数据集中难免会录入一些错误项(即脏的记录)，影响数据库质量，对使用造成一定的困难。因此，大数据清理非常重要。为了提高数据库内数据一致性，通常做法是创建一组数据质量规则。一旦数据库中存在不一致项，就会违反其中某些规则，因此就会被发现并得以修正。函数依赖FDs是数据修复和数据清洗中需要用到的重要约束规则，可以找到各项之间的隐藏关系。这种关系有助于找出错误项，并对其进行相应的修改。条件函数依赖(CFDs)可以看作是FDs的特殊形式。高质量的规则是使用CFDs进行有效的数据清洗系统的核心。由于数据质量规则集可能包含冲突，所以需要找到一致的约束规则(即最大一致子集)作为数据质量规则。这...

【技术保护点】
1.一种使用CFDs的数据清洗方法，其特征在于，包括如下步骤：/nS1、从待清洗的大数据集中进行抽样，在一次扫描中获得训练集；/nS2、基于训练集发现常量CFD和变量CFD，求得初步CFD集；/nS3、寻找初步CFD集中无冲突的最大相容规则子集；/nS4、根据最大相容规则子集对待清洗的大数据集进行清洗。/n

【技术特征摘要】
1.一种使用CFDs的数据清洗方法，其特征在于，包括如下步骤：
S1、从待清洗的大数据集中进行抽样，在一次扫描中获得训练集；
S2、基于训练集发现常量CFD和变量CFD，求得初步CFD集；
S3、寻找初步CFD集中无冲突的最大相容规则子集；
S4、根据最大相容规则子集对待清洗的大数据集进行清洗。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中从待清洗的大数据集中进行抽样时，采用如下方式：
S1-1、设训练集包括n组样本，每组样本数为m，并将大数据集的前m个元组作为训练集第一组样本；
S1-2、从大数据集的第m+1个元组开始扫描所有元组；
若该元组与训练集一组样本中的一个样本进行比较，二者具有的相同属性个数超过第一阈值，则执行步骤S1-3；
若该元组与训练集中任意样本进行比较，二者具有的相同属性个数均没有超过第一阈值，则执行步骤S1-4；
S1-3、进行判断，将该元组放入训练集该组样本之中，或将其舍弃；
S1-4、进一步检查该组每一个样本，若存在一个样本与该元组进行比较，二者具有的相同属性个数不少于第二阈值，则将该元组放入训练集下一组样本之中，否则将该元组舍弃。

3.根据权利要求2所述的方法，其特征在于，所述步骤S1-3进一步包括：
若进行比较时，训练集该组样本已有的样本数目不足m个，则直接将该元组加入训练集该组样本之中；
若进行比较时，训练集该组样本已有的样本数目已满m个，则生成随机数，根据随机数大小判断，将该元组加入训练集该组样本之中进行替换，或将其舍弃。

4.根据权利要求2所述的方法，其特征在于，所述步骤S1还包括：
S1-5、若训练集已有n×m个样本，而大数据集中依然有待扫描的元组，则在扫描新一个元组时，先生成随机数并进行判断，若随机数不...

【专利技术属性】
技术研发人员：王宏志，李明达，丁小欧，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：黑龙;23

全部详细技术资料下载我是这个专利的主人