一种数据元素构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36948455 阅读:11 留言:0更新日期:2023-03-22 19:09
本申请公开了一种数据元素构建方法、装置、电子设备及存储介质,涉及数据处理技术领域。本申请中,获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集,再基于获得的各个关键词单元子集各自包含的关键词单元,生成各个数据项各自对应的数据元素,从而当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将各个数据元素保存至预设的目标数据元素集合。采用这种方式,实现了数据元素的自动构建,提高了构建数据元素效率,还需确保各个数据元素满足预设的数据元素匹配条件,提高了构建数据元素的准确度。的准确度。的准确度。

【技术实现步骤摘要】
一种数据元素构建方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种数据元素构建方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网技术的普及和发展,海量数据不断从日常生活中涌出,进一步地,以数据分布式存储和计算为基础的大数据技术和人工智能技术,分别为海量数据的使用提供了基础条件和应用场景。
[0003]故而,为了从海量数据中挖掘出满足相应业务需求的目标数据,需要对海量数据进行数据管理,其中,数据元素的自动对标技术,在提高数据管理的质量和降低数据管理的成本上,发挥了良好的作用。
[0004]示例性的,在数据质量评估的场景中,为了实现对待评估数据的数据质量的评估,通常先获取待评估数据的待评估数据子集,再将待评估数据子集与预设的数据元素集合进行匹配,从而确定待评估数据子集中的字段信息对应的目标数据元素,进一步地,根据预设的数据元素与校验规则之间的对应关系,确定目标数据元素对应的目标校验规则,进而根据目标校验规则,确定待评估数据子集的子集数据合格率。
[0005]然而,采用数据元素的自动对标方法,通常都是预先构建数据元素,或者,在既有数据元素的基础上构建新的数据元素,并且,由于传统的数据元素构建方法效率较低,故而,极大地影响了数据元素的构建效率。
[0006]因此,现有技术中,数据元素的构建效率较低。

技术实现思路

[0007]本申请实施例提供了一种数据元素构建方法、装置、电子设备及存储介质,用以提高数据元素的构建效率。
[0008]第一方面,本申请实施例提供了一种数据元素构建方法,所述方法包括:
[0009]获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;
[0010]基于获得的各个关键词单元子集各自包含的关键词单元,生成各个数据项各自对应的数据元素;其中,每个数据元素表征:相应数据项的至少一个关键词单元;
[0011]当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将各个数据元素保存至预设的目标数据元素集合。
[0012]第二方面,本申请实施例还提供了一种数据元素构建装置,所述装置包括:
[0013]获取模块,用于获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;
[0014]生成模块,用于基于获得的各个关键词单元子集各自包含的关键词单元,生成各个数据项各自对应的数据元素;其中,每个数据元素表征:相应数据项的至少一个关键词单元;
[0015]筛选模块,用于当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将各个数据元素保存至预设的目标数据元素集合。
[0016]在一种可能的实施例中,在从各个数据项名称各自的关键词单元集合中,筛选出各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集时,所述获取模块具体用于:
[0017]针对各个数据项名称,分别执行以下操作:
[0018]对一个数据项名称进行划分,获得一个数据项名称的关键词单元集合,并确定关键词单元集合包含的各个关键词单元各自的词性;
[0019]从各个关键词单元中,筛选出词性为名词的至少一个关键词单元,并将至少一个关键词单元构成的名词集合,作为满足关键词单元条件的关键词单元子集。
[0020]在一种可能的实施例中,在基于获得的各个关键词单元子集各自包含的关键词单元,生成各个数据项各自对应的数据元素时,所述生成模块具体用于:
[0021]基于各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得各个数据项各自对应的关键词单元组合;
[0022]获取在匹配测试集中进行设定的测试配对次数的数据项配对时,获得的各个关键词单元组合各自的配对成功概率,并按照预设的配对成功概率选取条件,从各个关键词单元组合中,筛选出至少一个关键词单元组合;
[0023]基于至少一个关键词单元组合,生成各个数据项各自对应的数据元素。
[0024]在一种可能的实施例中,在基于各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得各个数据项各自对应的关键词单元组合时,所述生成模块具体用于:
[0025]针对各个关键词单元子集,分别执行以下操作:
[0026]确定一个关键词单元子集包含关键词单元的关键词单元数量;
[0027]若关键词单元数量,不大于预设的单元数量阈值,则将一个关键词单元子集包含的关键词单元序列作为相应数据项的关键词单元组合;
[0028]若关键词单元数量,大于单元数量阈值,则从一个关键词单元子集包含的关键词单元中,筛选出满足单元数量阈值的关键词单元序列,并将关键词单元序列作为相应数据项的关键词单元组合。
[0029]在一种可能的实施例中,在基于至少一个关键词单元组合,生成各个数据项各自对应的数据元素时,所述生成模块具体用于:
[0030]若至少一个关键词单元组合中,存在满足预设数据元素构成条件的关键词单元组合,则可将关键词单元组合作为相应数据项的数据元素。
[0031]在一种可能的实施例中,在确定获得的各个数据元素,满足预设的数据元素匹配条件时,所述筛选模块具体用于:
[0032]获取在目标业务场景中进行设定的目标配对次数的数据项配对时,各个数据元素各自的配对成功概率,并基于获得的各个配对成功概率,得到相应的配对成功总概率;
[0033]当配对成功总概率,大于预设的配对成功概率阈值时,确定各个数据元素满足所
述数据元素匹配条件。
[0034]第三方面,本申请实施例还提出了一种电子设备,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述第一方面所述的数据元素构建方法的步骤。
[0035]第四方面,本申请实施例还提出了一种计算机可读存储介质,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行上述第一方面所述的数据元素构建方法的步骤。
[0036]第五方面,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在被计算机调用时,使得所述计算机执行如第一方面所述的数据元素构建方法步骤。
[0037]本申请有益效果如下:
[0038]在本申请实施例所提供的数据元素构建方法中,获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集,再基于获得的各个关键词单元子集各自包含的关键词单元,生成各个数据项各自对应的数据元素,从而当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将各个数据元素保存至预设的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据元素构建方法,其特征在于,包括:获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素;其中,每个数据元素表征:相应数据项的至少一个关键词单元;当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将所述各个数据元素保存至预设的目标数据元素集合。2.如权利要求1所述的方法,其特征在于,所述从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集,包括:针对所述各个数据项名称,分别执行以下操作:对一个数据项名称进行划分,获得所述一个数据项名称的关键词单元集合,并确定所述关键词单元集合包含的各个关键词单元各自的词性;从所述各个关键词单元中,筛选出词性为名词的至少一个关键词单元,并将所述至少一个关键词单元构成的名词集合,作为满足所述关键词单元条件的关键词单元子集。3.如权利要求1所述的方法,其特征在于,所述基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素,包括:基于所述各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得所述各个数据项各自对应的关键词单元组合;获取在匹配测试集中进行设定测试配对次数的数据项配对时,获得的各个关键词单元组合各自的配对成功概率,并按照预设的配对成功概率选取条件,从所述各个关键词单元组合中,筛选出至少一个关键词单元组合;基于所述至少一个关键词单元组合,生成所述各个数据项各自对应的数据元素。4.如权利要求3所述的方法,其特征在于,所述基于所述各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得所述各个数据项各自对应的关键词单元组合,包括:针对所述各个关键词单元子集,分别执行以下操作:确定一个关键词单元子集包含关键词单元的关键词单元数量;若所述关键词单元数量,不大于预设的单元数量阈值,则将所述一个关键词单元子集包含的关键词单元序列作为相应数据项的关键词单元组合;若所述关键词单元数量,大于所述单元数量阈值,则从所述一个关键词单元子集包含的关键词单元中,筛选出满足所述单元数量阈值的关键词单元序列,并将所述关键词单元序列作为相应数据项的关键词单元组合。5.如权利要求3所述的方法,其特征在于,所述基于所述至少一个关键词单元组合,生成所述各个数据项各自对应的数据元素,包括:若所述至少一个关键词单元组合中,存在满足预设数据元素构成条件的关键词单元组合,则可将所述关键词单元组合作为相应数据项的数据元素。6.如权利要求1

5中任一项所述的方法,其特征在于,所述确定获得的各个数据元素,
满足预设的数据元素匹配条件,包括:获取在所述目标业务场景中进行设定的目标配对次数的数据项配对时,所述各个数据元素各自的配对成功概率,并基于获得的各个配对成功概率,得到相应的配对成功总概率;当所述配对成功总概率,大于预设的配对成功概率阈值时,确定所述各个数据元素满足所述数据元素匹配条件。7.一种数据元素构建装置,其特征在于,包括:获取模块,用于获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;生成模块,用于基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素;其中...

【专利技术属性】
技术研发人员:文欢吕晓陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1