基于人工智能的数据标准提取方法、装置、设备及介质制造方法及图纸

技术编号:37640212 阅读:10 留言:0更新日期:2023-05-25 10:07
本申请提出一种基于人工智能的数据标准提取方法、装置、电子设备及存储介质,基于人工智能的数据标准提取方法包括:采集业务数据库中的业务数据获得业务基础数据集;提取所述业务基础数据集中的码值类字段以获取枚举值列表;基于所述码值类字段生成字段向量以获得多种类别的字段组;计算所述枚举值列表之间的相似度以构建码值相似度矩阵;基于所述码值相似度矩阵构建连通图获得多个字段连通图;提取所述码值类字段的码值信息,并基于所述字段连通图对所述码值信息进行融合获得所述业务数据库的数据标准。本申请可综合考虑字段注解中码值信息和字段间的关联关系,并利用图算法获取数据标准,从而减少数据标准的冗余度,提升数据库的使用效率。据库的使用效率。据库的使用效率。

【技术实现步骤摘要】
基于人工智能的数据标准提取方法、装置、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种基于人工智能的数据标准提取方法、装置、电子设备及存储介质。

技术介绍

[0002]数据标准提取是大数据治理系统中的重要组成部分,当数据库达到一定量级之后,随着表和各表的字段数量增多,数据库系统参与人员的增加,数据标准会变得繁多且不统一,导致数据库系统的使用成本增加,因此提取统一的数据标准是数据治理的重要组成部分,可以降低数据库系统的使用成本并提升数据库业务效率,从而起到降本增效的效果。
[0003]在传统的数据标准提取中,通常将数据库中的每个字段作为一个独立的字段,忽略了数据库字段之间的关联关系。事实上,在大型数据库系统中,表内乃至表间的关联关系并不罕见,比如一个字段的值通常可以从多张表的联合查询得到,这种映射关系被称为关联关系,对于具有相同映射关系的字段而言,其数据标准是相同的,忽略这种关联关系往往会造成数据标准的冗余,从而降低数据库的使用效率。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的数据标准提取方法、装置、电子设备及存储介质,以解决如何降低数据标准的冗余部分,从而提升数据库的使用效率这一技术问题。
[0005]本申请提供一种基于人工智能的数据标准提取方法,所述方法包括:
[0006]采集业务数据库中的业务数据获得业务基础数据集;
[0007]提取所述业务基础数据集中的码值类字段以获取枚举值列表,所述码值类字段与所述枚举值列表一一对应;<br/>[0008]基于所述码值类字段生成字段向量,并基于所述字段向量对所述码值类字段进行分组获得多种类别的字段组;
[0009]计算所述字段组中各码值类字段对应的枚举值列表之间的相似度以构建码值相似度矩阵;
[0010]基于所述码值相似度矩阵构建各码值类字段之间的连通图获得多个字段连通图;
[0011]提取所述码值类字段的码值信息,并基于所述字段连通图对所述码值信息进行融合获得所述业务数据库的数据标准。
[0012]在一些实施例中,所述采集业务数据库中的业务数据获得业务基础数据集包括:
[0013]访问业务数据库的系统表和系统视图以采集业务数据库的元数据;
[0014]依据预设的业务数据抽样比率生成业务数据查询语句;
[0015]基于所述元数据和所述业务数据查询语句采集业务数据库中的业务数据得到业务基础数据集。
[0016]在一些实施例中,所述提取所述业务基础数据集中的码值类字段以获取枚举值列
表,所述码值类字段与所述枚举值列表一一对应,包括:
[0017]将所述业务基础数据集中的空字段去除得到业务字段数据集;
[0018]提取所述业务字段数据集中重复的字段作为码值类字段;
[0019]枚举出所述码值类字段的具体值作为枚举值,并统计所述枚举值在所述业务基础数据集中出现的频次;
[0020]基于所述枚举值和所述频次构建出每一个码值类字段对应的枚举值列表。
[0021]在一些实施例中,所述基于所述码值类字段生成字段向量,并基于所述字段向量对所述码值类字段进行分组获得多种类别的字段组,包括:
[0022]依据词向量模型将所述码值类字段转换为字段向量;
[0023]计算各字段向量之间的相似度;
[0024]基于所述相似度和预设的相似度阈值将所述码值类字段划分为多种类别的字段组。
[0025]在一些实施例中,所述枚举值列表为键值对结构,所述计算所述字段组中各码值类字段对应的枚举值列表之间的相似度以构建码值相似度矩阵,包括:
[0026]将所述字段组中各码值类字段对应的枚举值列表中的键转换为键向量;
[0027]计算各键向量之间的相似度以构建键相似度矩阵;
[0028]将所述字段组中各码值类字段对应的枚举值列表中的值作为值向量;
[0029]计算各值向量之间的相似度以构建值相似度矩阵;
[0030]对所述键相似度矩阵和所述值相似度矩阵进行加权求和获得码值相似度矩阵。
[0031]在一些实施例中,所述基于所述码值相似度矩阵构建各码值类字段之间的连通图获得多个字段连通图包括:
[0032]对比所述码值相似度矩阵中各码值相似度和预设的码值相似度阈值获得对比结果;
[0033]基于所述对比结果对所述码值相似度矩阵进行更新获得图伴随矩阵;
[0034]基于所述图伴随矩阵构建各码值类字段之间的连通图获得多个字段连通图。
[0035]在一些实施例中,所述提取所述码值类字段的码值信息,并基于所述字段连通图对所述码值信息进行融合获得所述业务数据库的数据标准,包括:
[0036]依据预设的语言规则从所述码值类字段的注释中提取码值信息;
[0037]将每一个字段连通图的顶点所代表的码值类字段合并为同一个分组获得码值类字段组;
[0038]合并所述码值类字段组中各码值类字段的码值信息作为所述码值类字段组的数据标准;
[0039]将所有码值类字段组的数据标准作为业务数据库的数据标准。
[0040]本申请实施例还提供一种基于人工智能的数据标准提取装置,所述装置包括采集模块、提取模块、分组模块、计算模块、构建模块以及融合模块:
[0041]所述采集模块,用于采集业务数据库中的业务数据获得业务基础数据集;
[0042]所述提取模块,用于提取所述业务基础数据集中的码值类字段以获取枚举值列表,所述码值类字段与所述枚举值列表一一对应;
[0043]所述分组模块,用于基于所述码值类字段生成字段向量,并基于所述字段向量对
所述码值类字段进行分组获得多种类别的字段组;
[0044]所述计算模块,用于计算所述字段组中各码值类字段对应的枚举值列表之间的相似度以构建码值相似度矩阵;
[0045]所述构建模块,用于基于所述码值相似度矩阵构建各码值类字段之间的连通图获得多个字段连通图;
[0046]所述融合模块,用于提取所述码值类字段的码值信息,并基于所述字段连通图对所述码值信息进行融合获得所述业务数据库的数据标准。
[0047]本申请实施例还提供一种电子设备,所述电子设备包括:
[0048]存储器,存储至少一个指令;
[0049]处理器,执行所述存储器中存储的指令以实现所述的基于人工智能的数据标准提取方法。
[0050]本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现所述的基于人工智能的数据标准提取方法。
[0051]本申请通过利用采集到的业务数据构建码值相似度矩阵来综合考虑字段注解中的码值信息和字段间的关联关系,并结合图算法来获取完整的数据标准,从而减少数据标准的冗余度,提升数据库的使用效率,降低了数据库的运营成本。
附图说明
[0052]图1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的数据标准提取方法,其特征在于,所述方法包括:采集业务数据库中的业务数据获得业务基础数据集;提取所述业务基础数据集中的码值类字段以获取枚举值列表,所述码值类字段与所述枚举值列表一一对应;基于所述码值类字段生成字段向量,并基于所述字段向量对所述码值类字段进行分组获得多种类别的字段组;计算所述字段组中各码值类字段对应的枚举值列表之间的相似度以构建码值相似度矩阵;基于所述码值相似度矩阵构建各码值类字段之间的连通图获得多个字段连通图;提取所述码值类字段的码值信息,并基于所述字段连通图对所述码值信息进行融合获得所述业务数据库的数据标准。2.如权利要求1所述的基于人工智能的数据标准提取方法,其特征在于,所述采集业务数据库中的业务数据获得业务基础数据集包括:访问业务数据库的系统表和系统视图以采集业务数据库的元数据;依据预设的业务数据抽样比率生成业务数据查询语句;基于所述元数据和所述业务数据查询语句采集业务数据库中的业务数据得到业务基础数据集。3.如权利要求1所述的基于人工智能的数据标准提取方法,其特征在于,所述提取所述业务基础数据集中的码值类字段以获取枚举值列表,所述码值类字段与所述枚举值列表一一对应,包括:将所述业务基础数据集中的空字段去除得到业务字段数据集;提取所述业务字段数据集中重复的字段作为码值类字段;枚举出所述码值类字段的具体值作为枚举值,并统计所述枚举值在所述业务基础数据集中出现的频次;基于所述枚举值和所述频次构建出每一个码值类字段对应的枚举值列表。4.如权利要求1所述的基于人工智能的数据标准提取方法,其特征在于,所述基于所述码值类字段生成字段向量,并基于所述字段向量对所述码值类字段进行分组获得多种类别的字段组,包括:依据词向量模型将所述码值类字段转换为字段向量;计算各字段向量之间的相似度;基于所述相似度和预设的相似度阈值将所述码值类字段划分为多种类别的字段组。5.如权利要求1所述的基于人工智能的数据标准提取方法,其特征在于,所述枚举值列表为键值对结构,所述计算所述字段组中各码值类字段对应的枚举值列表之间的相似度以构建码值相似度矩阵,包括:将所述字段组中各码值类字段对应的枚举值列表中的键转换为键向量;计算各键向量之间的相似度以构建键相似度矩阵;将所述字段组中各码值类字段对应的枚举值列表中的值作为值向量;计算各值向量之间的相似度以构建值相...

【专利技术属性】
技术研发人员:李健智贺春艳梁子敬秦魏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1