元数据扩充方法以及存储介质、电子设备技术

技术编号:33669106 阅读:13 留言:0更新日期:2022-06-02 20:52
本发明专利技术公开了一种元数据扩充方法以及存储介质、电子设备,元数据扩充方法,包括:获取源数据库的数据列信息,并选取未识别的待识别列;根据数据列信息对待识别列进行识别解析,得到可扩充列识别解析结果;根据可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果;根据相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据。该元数据扩充方法,可实现元数据的自动扩充和完善,降低管理元数据的人力成本、物力成本和时间成本。时间成本。时间成本。

【技术实现步骤摘要】
元数据扩充方法以及存储介质、电子设备


[0001]本专利技术涉及数据处理
,尤其涉及一种元数据扩充方法以及存储介质、电子设备。

技术介绍

[0002]随着信息技术的发展,信息化系统在政府及企事业单位的日常管理和运行过程中得到普及,相关业务系统的数量动辄几十个,若发生系统管理维护人员变动、业务系统变更等,可能会导致相关业务元数据的描述文档更新不及时,甚至出现管理不善而导致的关键元数据文档丢失。
[0003]并且,目前主流的元数据完善基本上都是依靠相关管理人员的手工核查和确认的方式,需要大量的人为配置,而人为手动进行业务元数据的整理和完善需要消耗大量的人力、物力和时间,成本和周期很难被相关业务系统的管理人员所接受。因此,如何高效完成相关系统的元数据完善,成为政府及企事业单位众多信息系统的管理工作所面临的新挑战。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的目的在于提出一种元数据扩充方法以及存储介质、电子设备,以实现元数据的自动扩充和完善,降低管理元数据的人力成本、物力成本和时间成本。
[0005]第一方面,本专利技术提出了一种元数据扩充方法,包括:获取源数据库的数据列信息,并选取未识别的待识别列;根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果;根据所述可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果;根据所述相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据。
[0006]另外,本专利技术第一方面实施例的元数据扩充方法还可以具有如下附加的技术特征:根据本专利技术的一个实施例,所述根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果,包括:根据所述数据列信息识别所述待识别列的数据来源,其中,所述数据来源包括列名称、列说明注释和列数值;分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名;对所述第一列名对应的列数值进行校验,并在校验通过时,将所述第一列名对应的列标记为可扩充列;根据所述可扩充列的列名称、列说明注释和列数值,得到所述可扩充列识别解析结果。
[0007]根据本专利技术的一个实施例,所述分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名,包括:对所述列名称进行分割得到第一分割数组,并将所述第一分割数组中的值与预置的第一类关键字进行匹配,得到匹配成功的第二列名;对所述列说明注释进行分割得到第二分割数组,并将所述第二分割数组中的值与预置的第二类关
键字进行匹配,得到匹配成功的第三列名;将所述第二列名和所述第三列名的共有列名标记为所述第一列名。
[0008]根据本专利技术的一个实施例,所述对所述第一列名对应的列数值进行校验,包括:对所述第一列名对应的列数值进行特征检测,得到有限重复集合特性列的值,并根据所述有限重复集合特性列的值生成无重复的列值数据;将所述无重复的列值数据与已有元数据的列值数据进行匹配,并在匹配成功时,判定校验通过。
[0009]根据本专利技术的一个实施例,所述根据所述可扩充列的列说明注释和列数值,得到所述可扩充列识别解析结果,包括:将所述可扩充列的无重复的列数值与列说明注释进行匹配,生成无重复的列数值与列说明注释的键值对,其中,无法匹配的列数值,其键值对中的列说明注释设置为空值;根据所述列名称和所述键值对得到所述可扩充列识别解析结果。
[0010]根据本专利技术的一个实施例,在将所述可扩充列的无重复的列数值与列说明注释进行匹配之前,还包括:对所述可扩充列的列说明注释进行分割得到第三分割数组;其中,所述将所述可扩充列的无重复的列数值与列说明注释进行匹配,包括:将所述可扩充列的无重复的列数值与所述第三分割数组进行匹配。
[0011]根据本专利技术的一个实施例,所述根据所述可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果,包括:按照相近列名称、相近列说明注释、相近列数值中的至少一者,将对任意两可扩充列的识别解析结果进行特征匹配,得到相应的匹配值;当所述匹配值大于预设阈值时,将对应的两个可扩充列作为相近可扩充列。
[0012]根据本专利技术的一个实施例,所述根据所述相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据,包括:将所述相近可扩充列的键值对进行合并去重,得到扩充后的元数据。
[0013]第二方面,本专利技术提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述的元数据扩充方法。
[0014]第三方面,本专利技术提出了一种电子设备,包括存储器、处理器和存储在所述存储器上的计算机程序,所述计算机程序被所述处理器执行时,实现上述的元数据扩充方法。
[0015]本专利技术实施例的元数据扩充方法以及存储介质、电子设备,可利用给定的源数据库,通过可扩充列识别解析、特征匹配和相似合并,实现基于现有元数据的元数据自动扩充和完善,无需大量的人为配置,可降低人力成本、物力成本和时间成本。
[0016]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0017]图1是本专利技术实施例的元数据扩充方法的流程图;图2是本专利技术一个实施例的步骤S102的具体流程图;图3是本专利技术一个示例的可扩充列识别解析的流程图。
具体实施方式
[0018]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终
相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0019]下面参考附图1

3描述本专利技术实施例的元数据扩充方法以及存储介质、电子设备。
[0020]图1是本专利技术实施例的元数据扩充方法的流程图。如图1所示,元数据扩充方法包括以下步骤:S101,获取源数据库的数据列信息,并选取未识别的待识别列。
[0021]具体地,源数据库可以是给定的用于进行元数据扩充的数据库,其包含有一个或多个待识别列,每个待识别列具有相应的数据列信息。在选取未识别的待识别列时,可每次选取一个未识别的待识别列进行识别解析,并重复该过程,直至所有的待识别列均已被识别;也可直接将所有未识别的待识别列选取出来,进而依次对每个待识别列进行识别解析。
[0022]S102,根据数据列信息对待识别列进行识别解析,得到可扩充列识别解析结果。
[0023]作为一个实施方式,如图2所示,根据数据列信息对待识别列进行识别解析,得到可扩充列识别解析结果,可包括:S201,根据数据列信息识别待识别列的数据来源,其中,数据来源包括列名称、列说明注释和列数值。
[0024]S202,分别对列名称和列说明注释进行匹配处理,得到匹配成功的第一列名。
[0025]具体地,分别对列名称和列说明注释进行匹配处理,得到匹配成功的第一列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种元数据扩充方法,其特征在于,包括:获取源数据库的数据列信息,并选取未识别的待识别列;根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果;根据所述可扩充列识别解析结果进行特征匹配,得到相近可扩充列匹配结果;根据所述相近可扩充列匹配结果进行相近可扩充列的元数据合并去重,得到扩充后的元数据。2.如权利要求1所述的元数据扩充方法,其特征在于,所述根据所述数据列信息对所述待识别列进行识别解析,得到可扩充列识别解析结果,包括:根据所述数据列信息识别所述待识别列的数据来源,其中,所述数据来源包括列名称、列说明注释和列数值;分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名;对所述第一列名对应的列数值进行校验,并在校验通过时,将所述第一列名对应的列标记为可扩充列;根据所述可扩充列的列名称、列说明注释和列数值,得到所述可扩充列识别解析结果。3.如权利要求2所述的元数据扩充方法,其特征在于,所述分别对所述列名称和所述列说明注释进行匹配处理,得到匹配成功的第一列名,包括:对所述列名称进行分割得到第一分割数组,并将所述第一分割数组中的值与预置的第一类关键字进行匹配,得到匹配成功的第二列名;对所述列说明注释进行分割得到第二分割数组,并将所述第二分割数组中的值与预置的第二类关键字进行匹配,得到匹配成功的第三列名;将所述第二列名和所述第三列名的共有列名标记为所述第一列名。4.如权利要求2所述的元数据扩充方法,其特征在于,所述对所述第一列名对应的列数值进行校验,包括:对所述第一列名对应的列数值进行特征检测,得到有限重复集合特性列的值,并根据所述有限重复集合特性列的值生成无重复的列值数据;将所述无重复的列值数据与已有元数据的列值数据进行匹配,并在匹配成功时,判定校验通过。5.如权利要求...

【专利技术属性】
技术研发人员:郑向宏孙鑫魏劲松王小红傅祖涛赵全祐
申请(专利权)人:安徽博微广成信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1