数据表标准化方法、装置、设备及计算机存储介质制造方法及图纸

技术编号:33892083 阅读:18 留言:0更新日期:2022-06-22 17:27
本申请公开了一种数据表标准化方法、装置、设备及计算机存储介质,涉及数据标准化技术领域,用于实现字段名和表名的标准化,且提升了数据标准化的效率,该方法包括:基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段;基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别;基于表格类别,生成源数据表对应的标准化表的标准表名称;基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项;基于标准表名称与各个标准数据项,获得标准化表。获得标准化表。获得标准化表。

【技术实现步骤摘要】
数据表标准化方法、装置、设备及计算机存储介质


[0001]本申请涉及计算机
,尤其涉及数据标准化
,提供一种数据表标准化方法、装置、设备及计算机存储介质。

技术介绍

[0002]随着互联网技术的普及和发展,数据增长速度迅猛,数据种类也愈发繁多,大数据技术和人工智能技术的发展为海量数据的使用提供了基础条件和应用场景。由于各业务系统之间相对独立,并且可能存在录入标准不统一等问题,导致各业务系统内的数据表达方式杂乱不一,给后续的研究使用带来了困难。因此,为了能够更便利的将海量数据投入到研究过程中,挖掘数据价值,数据标准化是必不可少的。
[0003]但是,目前的标准化过程通常都是由人工进行调整,尤其是标准化表的字段名和表名称命名耗时耗力。因此,能够自动化实现字段名和表名标准化十分有必要。

技术实现思路

[0004]本申请实施例提供一种数据表标准化方法、装置、设备及计算机存储介质,用于实现字段名和表名的标准化。
[0005]一方面,提供一种数据表标准化方法,所述方法包括:
[0006]基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
[0007]基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
[0008]基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
[0009]基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
[0010]基于所述标准表名称与所述各个标准数据项,获得所述标准化表。
[0011]一方面,提供一种数据表标准化装置,所述装置包括:
[0012]业务字段识别单元,用于基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
[0013]表格信息识别单元,用于基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
[0014]表命名单元,用于基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
[0015]数据项命名单元,用于基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;
[0016]标准表生成单元,用于基于所述标准表名称与所述各个标准数据项,获得所述标
准化表。
[0017]可选的,所述装置还包括自动化对标单元,用于:
[0018]针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;
[0019]针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。
[0020]可选的,所述业务字段识别单元,具体用于:
[0021]基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;
[0022]基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;
[0023]将筛除后剩余的时间字段确定为业务时间字段。
[0024]可选的,所述业务字段识别单元,还用于:
[0025]针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;
[0026]针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。
[0027]可选的,所述表格信息识别单元,具体用于:
[0028]基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;
[0029]基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;
[0030]基于所述表名称,提取所述源数据表所属的业务类别。
[0031]可选的,所述表格信息识别单元,具体用于:
[0032]按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;
[0033]若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。
[0034]可选的,所述表格信息识别单元,具体用于:
[0035]对所述表名称和所述字段信息进行文本预处理,获得多个候选词;
[0036]对所述多个候选词分别进行词向量化,获得所述多个候选词各自对应的词向量;
[0037]基于所述多个候选词各自对应的词向量,从所述多个候选词中确定出至少一个关键词,并基于所述至少一个关键词确定所述源数据表的表向量;
[0038]基于所述源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从所述各个候选数据表中,确定出至少一个候选数据表;
[0039]基于所述至少一个候选数据表各自对应的主题域类别,确定所述源数据表所属的主题域类别。
[0040]可选的,所述表格信息识别单元,具体用于:
[0041]从所述表名称中,提取初始业务系统名称以及初始业务名称;
[0042]对所述初始业务系统名称进行标准化处理,获得相应的标准业务系统名称;
[0043]对所述初始业务名称进行标准化处理,获得相应的标准业务名称。
[0044]可选的,所述数据项命名单元,具体用于:
[0045]针对各个字段信息,分别执行如下操作,生成各个字段信息各自在所述标准化表中的标准数据项:
[0046]针对一个字段信息,若所述一个字段信息对应的数据元对标结果为名称,则确定所述一个字段信息对应的标准数据项为源数据表中的相应源数据项;
[0047]若所述一个字段信息对应的数据元对标结果不是名称,则确定所述一个字段信息是否存在相应的限定词;
[0048]若存在限定词,则基于相应的限定词与数据元对标结果,确定所述一个字段信息对应的标准数据项;
[0049]若不存在限定词,则基于相应的数据元对标结果,确定所述一个字段信息对应的标准数据项。
[0050]可选的,所述数据项命名单元,还用于:
[0051]确定所述一个字段信息是否为业务时间字段;
[0052]若所述一个字段信息为业务时间字段,则基于所述一个字段信息的表示类型,为所述一个字段信息对应的标准数据项添加相应表示类型的类型标识;
[0053]若所述一个字段信息为非业务时间字本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表标准化方法,其特征在于,所述方法包括:基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;基于所述标准表名称与所述各个标准数据项,获得所述标准化表。2.如权利要求1所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之前,所述方法还包括:针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。3.如权利要求2所述的方法,其特征在于,基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段,包括:基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;将筛除后剩余的时间字段确定为业务时间字段。4.如权利要求3所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之后,所述方法还包括:针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。5.如权利要求2所述的方法,其特征在于,基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别,包括:基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;基于所述表名称,提取所述源数据表所属的业务类别。6.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。7.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:对所述表名称和所述字段信息进行文本预处理,获得多个候选词;对所...

【专利技术属性】
技术研发人员:陈银吕晓陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1