【技术实现步骤摘要】
数据表标准化方法、装置、设备及计算机存储介质
[0001]本申请涉及计算机
,尤其涉及数据标准化
,提供一种数据表标准化方法、装置、设备及计算机存储介质。
技术介绍
[0002]随着互联网技术的普及和发展,数据增长速度迅猛,数据种类也愈发繁多,大数据技术和人工智能技术的发展为海量数据的使用提供了基础条件和应用场景。由于各业务系统之间相对独立,并且可能存在录入标准不统一等问题,导致各业务系统内的数据表达方式杂乱不一,给后续的研究使用带来了困难。因此,为了能够更便利的将海量数据投入到研究过程中,挖掘数据价值,数据标准化是必不可少的。
[0003]但是,目前的标准化过程通常都是由人工进行调整,尤其是标准化表的字段名和表名称命名耗时耗力。因此,能够自动化实现字段名和表名标准化十分有必要。
技术实现思路
[0004]本申请实施例提供一种数据表标准化方法、装置、设备及计算机存储介质,用于实现字段名和表名的标准化。
[0005]一方面,提供一种数据表标准化方法,所述方法包括:
[0006]基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;
[0007]基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;
[0008]基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;
[0009]基于所述数据元对标结果、所述原 ...
【技术保护点】
【技术特征摘要】
1.一种数据表标准化方法,其特征在于,所述方法包括:基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;基于所述标准表名称与所述各个标准数据项,获得所述标准化表。2.如权利要求1所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之前,所述方法还包括:针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。3.如权利要求2所述的方法,其特征在于,基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段,包括:基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;将筛除后剩余的时间字段确定为业务时间字段。4.如权利要求3所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之后,所述方法还包括:针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。5.如权利要求2所述的方法,其特征在于,基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别,包括:基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;基于所述表名称,提取所述源数据表所属的业务类别。6.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。7.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:对所述表名称和所述字段信息进行文本预处理,获得多个候选词;对所...
【专利技术属性】
技术研发人员:陈银,吕晓,陈立力,周明伟,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。