一种数据表分类方法和装置制造方法及图纸

技术编号:34439437 阅读:14 留言:0更新日期:2022-08-06 16:27
本发明专利技术实施例提供了一种数据表分类方法和装置,可用于人工智能技术领域,所述方法包括:根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。的准确性和效率。的准确性和效率。

【技术实现步骤摘要】
一种数据表分类方法和装置


[0001]本专利技术涉及计算机
,特别涉及人工智能
,尤其涉及一种数据表分类方法和装置。

技术介绍

[0002]在各行各业的信息化发展的进程中,越来越多的数据以结构化表的形式存在于数据库中。由于行业内发展速度快,业务来源广泛,业务线复杂,导致数据库中的众多数据表存储混乱。相关技术中,数据管理人员手动将数据库中的数据表进行归类,人工归类的方式依赖于数据管理人员的主观经验,数据管理人员只能通过表名或数据表的业务意义对数据表类型进行粗略判断,准确率较低;而且随着数据表数量不断增加,人工判断的方式会损耗大量人力资源,分类效率较低。

技术实现思路

[0003]本专利技术的一个目的在于提供一种数据表分类方法,能够节约人力资源,提高数据表分类的准确性和效率。本专利技术的另一个目的在于提供一种数据表分类装置。本专利技术的再一个目的在于提供一种计算机可读介质。本专利技术的还一个目的在于提供一种计算机设备。
[0004]为了达到以上目的,本专利技术一方面公开了一种数据表分类方法,包括:
[0005]根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;
[0006]通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果。
[0007]优选的,在根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型之前,还包括:
[0008]按照预设的标记类别对获取的库内数据表进行标记,构建样本数据表。
[0009]优选的,样本数据表包括样本表名和样本表内数据;
[0010]根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型,包括:
[0011]根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型;
[0012]根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分类模型。
[0013]优选的,根据样本表名,对双向编码器进行训练,构建基于表名的第一分类模型,包括:
[0014]对样本表名进行编码预处理,得到表名编码;
[0015]将设置的全连接层添加至双向编码器,得到第一更新编码器;
[0016]按照预先设置的第一超参数,根据表名编码,对第一更新编码器进行训练,得到第一分类模型。
[0017]优选的,根据样本表内数据,对双向编码器进行训练,构建基于表内数据的第二分
类模型,包括:
[0018]对样本表内数据进行数据预处理,得到数据编码;
[0019]将设置的全连接层组添加至双向编码器,得到第二更新编码器,全连接层组包括多个全连接层;
[0020]按照预先设置的第二超参数,根据数据编码,对第二更新编码器进行训练,得到第二分类模型。
[0021]优选的,对样本表内数据进行数据预处理,得到数据编码,包括:
[0022]从样本表内数据中筛选出字段类型为字符型的样本表内数据;
[0023]对筛选出的样本表内数据进行编码预处理,得到数据编码。
[0024]优选的,在对筛选出的样本表内数据进行编码预处理,得到数据编码之前,还包括:
[0025]统计筛选出的样本表内数据的数据量;
[0026]若数据量大于设置的数量阈值,随机采样指定数量的样本表内数据。
[0027]优选的,通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,包括:
[0028]通过第一分类模型,对待分类数据表进行分类,得到第一分类结果;
[0029]通过第二分类模型,对待分类数据表进行分类,得到第二分类结果;
[0030]对第一分类结果和第二分类结果进行判别,得到分类结果。
[0031]优选的,对第一分类结果和第二分类结果进行判别,得到分类结果,包括:
[0032]若第一分类结果与第二分类结果相同,则将第一分类结果作为待分类数据表的分类结果;
[0033]若第一分类结果与第二分类结果不同,生成并显示二次验证消息。
[0034]本专利技术还公开了一种数据表分类装置,包括:
[0035]构建单元,用于根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;
[0036]分类单元,用于通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果
[0037]本专利技术还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
[0038]本专利技术还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
[0039]本专利技术还公开了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述方法。
[0040]本专利技术根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果,能够节约人力资源,提高数据表分类的准确性和效率。
附图说明
[0041]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本专利技术实施例提供的一种数据表分类方法的流程图;
[0043]图2为本专利技术实施例提供的又一种数据表分类方法的流程图;
[0044]图3为本专利技术实施例提供的一种全连接层设计的示意图;
[0045]图4为本专利技术实施例提供的一种全连接层组设计的示意图;
[0046]图5为本专利技术实施例提供的一种数据表分类装置的结构示意图;
[0047]图6为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0048]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0049]需要说明的是,本申请公开的一种数据表分类方法和装置可用于人工智能
,也可用于除人工智能
之外的任意领域,本申请公开的一种数据表分类方法和装置的应用领域不做限定。
[0050]为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。大多数行业中,由于业务划分类别众多,存在大量的数据库表。随着业务不断发展,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据表分类方法,其特征在于,所述方法包括:根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型;通过所述第一分类模型和第二分类模型,对待分类数据表进行分类判别,得到分类结果。2.根据权利要求1所述的数据表分类方法,其特征在于,在所述根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型之前,还包括:按照预设的标记类别对获取的库内数据表进行标记,构建样本数据表。3.根据权利要求1所述的数据表分类方法,其特征在于,所述样本数据表包括样本表名和样本表内数据;所述根据构建的样本数据表,对双向编码器进行训练,构建基于表名的第一分类模型和基于表内数据的第二分类模型,包括:根据所述样本表名,对所述双向编码器进行训练,构建基于表名的第一分类模型;根据所述样本表内数据,对所述双向编码器进行训练,构建基于表内数据的第二分类模型。4.根据权利要求3所述的数据表分类方法,其特征在于,所述根据所述样本表名,对所述双向编码器进行训练,构建基于表名的第一分类模型,包括:对所述样本表名进行编码预处理,得到表名编码;将设置的全连接层添加至所述双向编码器,得到第一更新编码器;按照预先设置的第一超参数,根据所述表名编码,对所述第一更新编码器进行训练,得到所述第一分类模型。5.根据权利要求3所述的数据表分类方法,其特征在于,所述根据所述样本表内数据,对所述双向编码器进行训练,构建基于表内数据的第二分类模型,包括:对所述样本表内数据进行数据预处理,得到数据编码;将设置的全连接层组添加至所述双向编码器,得到第二更新编码器,所述全连接层组包括多个全连接层;按照预先设置的第二超参数,根据所述数据编码,对所述第二更新编码器进行训练,得到所述第二分类模型。6.根据权利要求5所述的数据表分类方法,其特征在于,所述对所述样本表内数据进行数据预处理,得到数据编码,包括:从所述样本表内数据中筛选出字段...

【专利技术属性】
技术研发人员:韩奇城孙少杰杜敏贾小茹
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1