一种数据清洗方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29283564 阅读:58 留言:0更新日期:2021-07-16 23:38
本申请的涉及一种数据清洗方法,包括:获取样本数据;根据所述样本数据确定一般成员集合,其中所述一般成员集合包括所述样本数据中的全部一般成员;根据所述样本数据确定特殊成员集合,其中所述一般成员集合包括所述样本数据中的全部特殊成员;根据所述一般成员集合和所述特殊成员集合得到清洁数据集。所述特殊成员集合得到清洁数据集。所述特殊成员集合得到清洁数据集。

【技术实现步骤摘要】
一种数据清洗方法、装置、电子设备及存储介质


[0001]本申请属于数据库领域,特别涉及一种数据清洗方法、一种数据清洗装置、一种电子设备及一种存储介质。

技术介绍

[0002]本专利的应用背景是在现有的26个科技人才数据库中以研究人的受教育经历,研究机构,研究项目,论文,专利为关键字,获取以研究人身份证号为主键的数据库。
[0003]因现在的科技人才数据库数据冗余度高,数据缺项、数据重复和冲突的情况常见,现有的算法无法智能识别数据质量,数据清洗难以做到满足数据质量的要求。并且数据库的元组规模在亿条级别,通过人工清洗和设置关键字筛选的传统方法很难短时间内建立数据库,本文提出一种基于人工智能的科技人才数据自动清洗方法。

技术实现思路

[0004]本申请旨在提供一种数据清洗方法、一种数据清洗装置、一种电子设备及一种存储介质。
[0005]本申请的一个实施例提供了一种数据清洗方法,包括:获取样本数据;根据所述样本数据确定一般成员集合,其中所述一般成员集合包括所述样本数据中的全部一般成员;根据所述样本数据确定特殊成员集合,其中所述一般成员集合包括所述样本数据中的全部特殊成员;根据所述一般成员集合和所述特殊成员集合得到清洁数据集。
[0006]可选地,该方法还可以包括:在所述一般成员集合中检索符合预设的选择条件的成员,得到一般成员子集;在所述特殊成员集合中检索符合所述预设的选择条件的成员,得到特殊成员子集;所述根据所述一般成员集合和所述特殊成员集合得到清洁数据集,包括:根据所述一般成员子集和所述特殊成员子集的到清洁数据集。
[0007]可选地,在该方法中,所述一般成员集合包和所述特殊成员集合可以包含至少一个相同属性。
[0008]进一步地,该方法还可以包括:确定所述一般成员集合中每个成员的评价因子;确定所述特殊成员集合中每个成员的所述评价因子;其中,所述评价因子为根据成员的所述至少一个相同属性的预设线性表达式得到。
[0009]更进一步地,该方法中,所述预设的选择条件可以为所述评价因子与第一阈值的比较结果。
[0010]本申请的另一实施例还提供了一种数据清洗装置,包括:样本数据获取单元,用于获取样本数据;一般成员集合建立单元,用于根据所述样本数据,建立一般成员集合;特殊成员集合建立单元,用于根据所述样本数据,建立特殊成员集合;清洁数据获取单元,用于根据所述一般成员集合和所述特殊成员集合确定清洁数据集。
[0011]可选地,该装置还可以包括:一般成员子集建立单元,连接于所述一般成员集合建立单元和所述清洁数据获取单元之间,用于根据所述一般成员集合建立一般成员子集;特
殊成员子集建立单元,连接于所述特殊成员集合建立单元和所述清洁数据获取单元之间,用于根据所述特殊成员集合建立特殊成员子集。
[0012]进一步地,该装置还可以包括:评价因子确定单元,用于确定所述一般成员集合中的成员的评价因子,所述一般成员集合中的成员的评价因子用于建立所述一般成员子集,评价因子确定单元还用于确定所述特殊成员集合的成员的评价因子,所述特殊成员集合的成员的评价因子用于建立所述特殊成员子集。
[0013]本申请的另一实施例还提供了一种电子设备包括处理器和存储器,以及存储于所述存储器的,所述处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
[0014]本申请的另一实施例还提供了一种存储介质,存储处理器可执行的程序,当所述程序被执行时,所述处理器执行前述任意一种方法。
[0015]利用上述方法、装置、电子设备和存储介质,可以通过把样本数据集分解成一般成员集合和特殊成员集合,在通过两个集合之间的互动可以简单快捷的实现对大规模数据的数据清洗目的。该方法具有简单快捷,易于自动化实现的优点。
附图说明
[0016]图1示出了本申请的一个实施例数据清洗方法的流程示意图。
[0017]图2示出了图1所示实施例的一种另一种流程示意图。
[0018]图3示出了本申请的另一实施例数据清洗方法的流程示意图。
[0019]图4示出了本申请的另一实施例数据清洗装置的组成示意图。
[0020]图5示出根据一示例性实施例的一种电子设备的框图。
具体实施方式
[0021]以下是通过特定的具体实施例来说明本专利技术所公开有关“一种数据清洗方法、一种数据清洗装置、一种电子设备及一种存储介质”的实施方式,本领域技术人员可由本说明书所公开的内容了解本专利技术的优点与效果。本专利技术可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。另外,本专利技术的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本专利技术的相关
技术实现思路
,但所公开的内容并非用以限制本专利技术的保护范围。
[0022]本申请旨在提供一种数据清洗方法、一种数据清洗装置、一种电子设备及一种存储介质。
[0023]本申请的一个实施例提供了一种数据清洗方法,包括:获取样本数据;
[0024]根据所述样本数据确定一般成员集合,其中所述一般成员集合包括所述样本数据中的全部一般成员;根据所述样本数据确定特殊成员集合,其中所述一般成员集合包括所述样本数据中的全部特殊成员;根据所述一般成员集合和所述特殊成员集合得到清洁数据集。
[0025]可选地,该方法还可以包括:在所述一般成员集合中检索符合预设的选择条件的成员,得到一般成员子集;在所述特殊成员集合中检索符合所述预设的选择条件的成员,得
到特殊成员子集;所述根据所述一般成员集合和所述特殊成员集合得到清洁数据集,包括:根据所述一般成员子集和所述特殊成员子集的到清洁数据集。
[0026]可选地,在该方法中,所述一般成员集合包和所述特殊成员集合可以包含至少一个相同属性。
[0027]进一步地,该方法还可以包括:确定所述一般成员集合中每个成员的评价因子;确定所述特殊成员集合中每个成员的所述评价因子;其中,所述评价因子为根据成员的所述至少一个相同属性的预设线性表达式得到。
[0028]更进一步地,该方法中,所述预设的选择条件可以为所述评价因子与第一阈值的比较结果。
[0029]本申请的另一实施例还提供了一种数据清洗装置,包括:样本数据获取单元,用于获取样本数据;一般成员集合建立单元,用于根据所述样本数据,建立一般成员集合;特殊成员集合建立单元,用于根据所述样本数据,建立特殊成员集合;清洁数据获取单元,用于根据所述一般成员集合和所述特殊成员集合确定清洁数据集。
[0030]可选地,该装置还可以包括:一般成员子集建立单元,连接于所述一般成员集合建立单元和所述清洁数据获取单元之间,用于根据所述一般成员集合建立一般成员子集;特殊成员子集建立单元,连接于所述特殊成员集合建立单元和所述清洁数据获取单元之间,用于根据所述特殊成员集合建立特殊成员子集。
[0031]进一步地,该装置还可以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,包括:获取样本数据;根据所述样本数据确定一般成员集合,其中所述一般成员集合包括所述样本数据中的全部一般成员;根据所述样本数据确定特殊成员集合,其中所述一般成员集合包括所述样本数据中的全部特殊成员;根据所述一般成员集合和所述特殊成员集合得到清洁数据集。2.根据权利要求1所述的方法,还包括:在所述一般成员集合中检索符合预设的选择条件的成员,得到一般成员子集;在所述特殊成员集合中检索符合所述预设的选择条件的成员,得到特殊成员子集;所述根据所述一般成员集合和所述特殊成员集合得到清洁数据集,包括:根据所述一般成员子集和所述特殊成员子集的到清洁数据集。3.根据权利要求1所述的方法,其中所述一般成员集合包和所述特殊成员集合包含至少一个相同属性。4.根据权利要求3所述的方法,还包括:确定所述一般成员集合中每个成员的评价因子;确定所述特殊成员集合中每个成员的所述评价因子;其中,所述评价因子为根据成员的所述至少一个相同属性的预设线性表达式得到。5.根据权利要求4所述的方法,其中所述预设的选择条件为所述评价因子与第一阈值的比较结果。6.一种数据清洗装置,包括:样本数据获取单元,用于获取样本数据;一般成员集合建立单元,用...

【专利技术属性】
技术研发人员:张英杰袁伟朱礼军吴思曹燕张静赵辉
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1