数据抽取方法、装置、计算机可读介质及电子设备制造方法及图纸

技术编号:29199520 阅读:12 留言:0更新日期:2021-07-10 00:33
本公开提供一种数据抽取方法、数据抽取装置、计算机可读介质及电子设备;涉及数据处理技术领域。该数据抽取方法包括:获取数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。本公开中的数据抽取方法能够在抽取较少样本的情况下仍能保证样本的一致性,进而节省计算资源,提高抽取的有效性。效性。效性。

【技术实现步骤摘要】
数据抽取方法、装置、计算机可读介质及电子设备


[0001]本公开涉及数据处理
,具体而言,涉及一种数据抽取方法、数据抽取装置、计算机可读介质及电子设备。

技术介绍

[0002]数据库是存储和管理数据的重要工具,任何互联网技术都离不开数据库的支持。使用不同来源、结构不同的数据时,需要对数据进行结构化,得到具有统一规范结构的标准数据模型,才能利用数据库对业务数据进行处理。
[0003]每个原始数据在向标准数据模型转换时,通常不会涉及到标准数据结果的全部类型,其转换的结果只能是标准数据的一个子集。举例而言,原始数据通过映射和关联,可以填充到标准数据模型的若干业务表的相关字段中,而对于标准数据模型的其他业务表或者表内不相关字段,则留空不填。然而,业务表中的数据分布情况对于业务人员来说并不清楚,在需要对数据进行质检、验证时,不清楚哪些表中的字段有值分布情况,则无法进行抽取,导致需要对全部数据均进行处理,效率低下。
[0004]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种数据抽取方法、数据抽取装置、计算机可读介质及电子设备,能够在一定程度上克服数据抽取规模较大而导致抽取效率低的问题,进而提升对数据的抽取处理效率。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的第一方面,提供一种数据抽取方法,包括:
[0008]获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;
[0009]根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;
[0010]根据各所述数据记录中包含的所述目标字段与所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。
[0011]在本公开的一种示例性实施例中,获取数据库的非空字段集合之前,还包括:
[0012]判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。
[0013]在本公开的一种示例性实施例中,所述判断所述数据库中各个数据表中的各字段对应的字段值是否为空,包括:
[0014]根据各所述字段的字段类型判断各所述字段对应的字段值是否为空。
[0015]在本公开的一种示例性实施例中,所述根据各所述数据记录中包含的所述目标字
段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,包括:
[0016]按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合;
[0017]根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。
[0018]在本公开的一种示例性实施例中,所述根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,包括:
[0019]确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序;
[0020]按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。
[0021]在本公开的一种示例性实施例中,所述根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,包括:
[0022]根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合;
[0023]计算所述目标第一补集与各所述记录集合的第二补集,将包含的元素最少的目标第二补集对应的记录集合合并至所述候选集合中,直到
[0024]所述候选集合包含的所述目标字段与所述非空字段集合相等,则将所述候选集合确定为所述目标集合。
[0025]在本公开的一种示例性实施例中,将所述目标数据记录对应的目标字段确定为所述数据库的待抽取数据之后,该方法还包括:
[0026]确定各所述目标数据记录分别对应的主键值,以获取主键值集合;
[0027]如果接收到抽取请求,则将所述主键值集合发送至所述抽取请求的发送端,以使所述发送端通过所述主键值集合对所述数据库进行抽取。
[0028]根据本公开的第二方面,提供一种数据抽取装置,包括非空字段获取模块、表数据确定模块以及抽取数据确定模块,其中:
[0029]非空字段获取模块,用于获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;
[0030]表数据确定模块,用于根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;
[0031]抽取数据确定模块,用于根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。
[0032]在本公开的一种示例性实施例中,该装置还包括非空判断模块,用于判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。
[0033]在本公开的一种示例性实施例中,所述非空判断模块可以具体用于根据各所述字段的字段类型判断各所述字段对应的字段值是否为空。
[0034]在本公开的一种示例性实施例中,抽取数据确定模块包括分类单元和集合确定单
元,其中:
[0035]分类单元,用于按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合。
[0036]集合确定单元,用于根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。
[0037]在本公开的一种示例性实施例中,集合确定单元可以具体包括排序单元和集合选取单元,其中:
[0038]排序单元,用于确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序。
[0039]集合选取单元,用于按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。
[0040]在本公开的一种示例性实施例中,集合确定单元可以具体包括补集计算单元、集合合并单元,以及集合判断单元,其中:
[0041]补集计算单元,用于根据各所述记录集合包含的目标字段,分别计算各所述记录集合与所述非空字段集合的第一补集,将包含的元素最少的目标第一补集对应的记录集合作为候选集合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:获得数据库的非空字段集合,以及所述数据库中各个数据表中的多个数据记录;根据各所述数据记录中包含的非空字段值,确定各所述数据记录中包含的目标字段;根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,将所述目标数据记录确定为所述数据库的待抽取数据。2.根据权利要求1所述的方法,其特征在于,获取数据库的非空字段集合之前,还包括:判断所述数据库中各个数据表中各字段对应的字段值是否为空,将对应的字段值不为空的字段确定为该数据表中的非空字段,以获取所述非空字段集合。3.根据权利要求2所述的方法,其特征在于,判断所述数据库中各个数据表中的各字段对应的字段值是否为空,包括:根据各所述字段的字段类型判断各所述字段对应的字段值是否为空。4.根据权利要求1所述的方法,其特征在于,所述根据各所述数据记录中包含的所述目标字段和所述非空字段集合,从所述多个数据记录中确定目标数据记录,包括:按照所述多个数据记录中包含的主键值对所述多个数据记录进行分类,确定各所述主键值分别对应的记录集合;根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,将所述目标集合包含的数据作为所述目标数据记录。5.根据权利要求4所述的方法,其特征在于,所述根据所述非空字段集合,以及各所述记录集合包含的目标字段,从各所述记录集合中确定所述目标集合,包括:确定各所述记录集合包含的目标字段的数量,按照所述数量从大到小对各所述记录集合进行排序;按照所述排序的顺序确定多个目标集合,以使所述多个目标集合包含的所有目标字段与所述非空字段集合中的非空字段相同。6.根据权利要求4所述的方...

【专利技术属性】
技术研发人员:陈雪松
申请(专利权)人:北京懿医云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1