【技术实现步骤摘要】
一种数据元素构建方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,尤其涉及一种数据元素构建方法、装置、电子设备及存储介质。
技术介绍
[0002]随着互联网技术的普及和发展,海量数据不断从日常生活中涌出,进一步地,以数据分布式存储和计算为基础的大数据技术和人工智能技术,分别为海量数据的使用提供了基础条件和应用场景。
[0003]故而,为了从海量数据中挖掘出满足相应业务需求的目标数据,需要对海量数据进行数据管理,其中,数据元素的自动对标技术,在提高数据管理的质量和降低数据管理的成本上,发挥了良好的作用。
[0004]示例性的,在数据质量评估的场景中,为了实现对待评估数据的数据质量的评估,通常先获取待评估数据的待评估数据子集,再将待评估数据子集与预设的数据元素集合进行匹配,从而确定待评估数据子集中的字段信息对应的目标数据元素,进一步地,根据预设的数据元素与校验规则之间的对应关系,确定目标数据元素对应的目标校验规则,进而根据目标校验规则,确定待评估数据子集的子集数据合格率。
[0005]然而,采用数据元素的自动对标方法,通常都是预先构建数据元素,或者,在既有数据元素的基础上构建新的数据元素,并且,由于传统的数据元素构建方法效率较低,故而,极大地影响了数据元素的构建效率。
[0006]因此,现有技术中,数据元素的构建效率较低。
技术实现思路
[0007]本申请实施例提供了一种数据元素构建方法、装置、电子设备及存储介质,用以提高数据元素的构建效率。
...
【技术保护点】
【技术特征摘要】
1.一种数据元素构建方法,其特征在于,包括:获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素;其中,每个数据元素表征:相应数据项的至少一个关键词单元;当确定获得的各个数据元素,满足预设的数据元素匹配条件时,将所述各个数据元素保存至预设的目标数据元素集合。2.如权利要求1所述的方法,其特征在于,所述从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集,包括:针对所述各个数据项名称,分别执行以下操作:对一个数据项名称进行划分,获得所述一个数据项名称的关键词单元集合,并确定所述关键词单元集合包含的各个关键词单元各自的词性;从所述各个关键词单元中,筛选出词性为名词的至少一个关键词单元,并将所述至少一个关键词单元构成的名词集合,作为满足所述关键词单元条件的关键词单元子集。3.如权利要求1所述的方法,其特征在于,所述基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素,包括:基于所述各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得所述各个数据项各自对应的关键词单元组合;获取在匹配测试集中进行设定测试配对次数的数据项配对时,获得的各个关键词单元组合各自的配对成功概率,并按照预设的配对成功概率选取条件,从所述各个关键词单元组合中,筛选出至少一个关键词单元组合;基于所述至少一个关键词单元组合,生成所述各个数据项各自对应的数据元素。4.如权利要求3所述的方法,其特征在于,所述基于所述各个关键词单元子集各自包含的关键词单元及其关键词单元数量,获得所述各个数据项各自对应的关键词单元组合,包括:针对所述各个关键词单元子集,分别执行以下操作:确定一个关键词单元子集包含关键词单元的关键词单元数量;若所述关键词单元数量,不大于预设的单元数量阈值,则将所述一个关键词单元子集包含的关键词单元序列作为相应数据项的关键词单元组合;若所述关键词单元数量,大于所述单元数量阈值,则从所述一个关键词单元子集包含的关键词单元中,筛选出满足所述单元数量阈值的关键词单元序列,并将所述关键词单元序列作为相应数据项的关键词单元组合。5.如权利要求3所述的方法,其特征在于,所述基于所述至少一个关键词单元组合,生成所述各个数据项各自对应的数据元素,包括:若所述至少一个关键词单元组合中,存在满足预设数据元素构成条件的关键词单元组合,则可将所述关键词单元组合作为相应数据项的数据元素。6.如权利要求1
‑
5中任一项所述的方法,其特征在于,所述确定获得的各个数据元素,
满足预设的数据元素匹配条件,包括:获取在所述目标业务场景中进行设定的目标配对次数的数据项配对时,所述各个数据元素各自的配对成功概率,并基于获得的各个配对成功概率,得到相应的配对成功总概率;当所述配对成功总概率,大于预设的配对成功概率阈值时,确定所述各个数据元素满足所述数据元素匹配条件。7.一种数据元素构建装置,其特征在于,包括:获取模块,用于获取目标业务场景所涉及的各个数据项及其各自的数据项名称,并从各个数据项名称各自的关键词单元集合中,筛选出所述各个数据项名称各自的,且满足预设的关键词单元条件的关键词单元子集;生成模块,用于基于获得的各个关键词单元子集各自包含的关键词单元,生成所述各个数据项各自对应的数据元素;其中...
【专利技术属性】
技术研发人员:文欢,吕晓,陈立力,周明伟,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。