外键信息的识别方法及装置、电子设备及可读存储介质制造方法及图纸

技术编号:39306556 阅读:9 留言:0更新日期:2023-11-12 15:54
本发明专利技术提出了一种外键信息的识别方法及装置、电子设备及可读存储介质。其中,外键信息的识别方法包括:获取数据表中每条记录的数据信息;根据数据信息和数据表的字段确定与数据信息相对应的词向量集合;根据每条记录的词向量集合和外键识别算法模型识别数据表中的外键信息。本发明专利技术通过利用人工智能算法模型即外键识别算法模型从而实现了对大量数据表的外键信息的识别。键信息的识别。键信息的识别。

【技术实现步骤摘要】
外键信息的识别方法及装置、电子设备及可读存储介质


[0001]本专利技术涉及数据库
,具体而言,涉及一种外键信息的识别方法、一种外键信息的识别装置、一种电子设备以及一种可读存储介质。

技术介绍

[0002]相关技术中,对于外键信息的判别方法存在以下缺陷:由于数据量较大,不可能人工去逐一进行判断。而现有的基于规则的外键判别方法也只适用于少量的数据量,然而在大量的数据表中是无法用统一的一套规则去判别每个表中哪个字段是外键信息的。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。
[0004]为此,本专利技术第一方面提出了一种外键信息的识别方法。
[0005]本专利技术第二方面提出了一种外键信息的识别装置。
[0006]本专利技术第三方面提出了一种电子设备。
[0007]本专利技术第四方面提出了一种可读存储介质。
[0008]本专利技术第一方面提出了一种外键信息的识别方法,包括:获取数据表中每条记录的数据信息;根据数据信息和数据表的字段确定与数据信息相对应的词向量集合;根据每条记录的词向量集合和外键识别算法模型识别数据表中的外键信息。
[0009]本专利技术提供的外键信息的识别方法,具体包括对数据表中的每条记录的数据信息进行获取。由于每条记录的数据信息中包括多个不同的字段,而不同的字段的内容是不同的,如数据表中的字段列名基本为英文,而数据字段注释列名为中文。这些数据无法直接被外键识别算法模型使用,因此,需要根据每条记录的数据信息和数据表的字段对每条记录的数据信息进行转换生成词向量集合,其中,词向量是指来自词汇表的单词或短语被映射到实数的向量,即在将数据信息输入到外键识别算法模型中之前需要将每个数据信息转换为N维度的向量,然后再将每条记录的词向量集合输入到外键识别算法模型中,外键识别算法模型根据词向量集合可以识别出数据表中的外键信息,从而实现对外键信息的识别。本专利技术通过将数据表内的数据信息转换为词向量,进而借助人工智能算法模型实现了对大量的数据表的外键信息进行识别。
[0010]根据本专利技术上述的外键信息的识别方法,还可以具有以下附加技术特征:
[0011]在一些技术方案中,优选地,获取数据表中每条记录的数据信息的步骤,包括:根据数据表确定多个按顺序排列的子数据表;根据多个子数据表的顺序获取子数据表中的每条记录的数据信息。
[0012]在该技术方案中,在获取数据表中每条记录的数据信息时可能会导致所占内存过大,同时在获取到数据信息后还需要对数据信息进行转换生成词向量,而转换后的词向量可能所占的内存也较大,因此,在对获取到的数据信息和转换后的词向量进行保存时会导致内存溢出的错误。所以在获取数据表中每条记录的数据信息的过程中,需要对数据表进
行分割,将数据表按照数据表内每条记录的顺序分割成多个子数据表,即将一个大文件转换为了多个小文件。然后根据多个子数据表的顺序获取子数据表中的每条记录的数据信息,即只有当一个子数据表中的数据信息都识别完之后才获取下一个子数据表中的数据信息,从而避免了对数据表进行一次性全部获取和转换而带来的较大开销的问题。
[0013]在一些技术方案中,可选地,根据数据信息和数据表的字段确定与数据信息相对应的词向量集合的步骤,包括:将数据信息按照数据表的字段分成多个子数据信息;根据子数据信息确定与子数据信息对应的词向量;将多个词向量进行合并得到词向量集合。
[0014]在该技术方案中,数据表中的数据信息中会存在自然语言类型的数据,而自然语言是无法被算法模型所直接使用的,因此需要对数据信息进行转换,而数据信息又是由不同的字段所组成的,每个字段中的内容也是不同的,因此,需要将每条记录的数据信息按照数据表中的字段分成多个子数据信息,然后分别对每条记录中的每个子数据信息进行转换得到与该子数据信息所对应的词向量,进而将每条记录中的多个词向量合并从而得到了词向量集合,即每个词向量集合分别代表了每条记录的数据信息。
[0015]在一些技术方案中,可选地,根据子数据信息确定与子数据信息对应的词向量的步骤,包括:获取词向量编码模型;利用词向量编码模型对子数据信息进行编码得到词向量。
[0016]在该技术方案中,将子数据信息转换为相对应的词向量的方法可以为通过词向量编码模型对子数据信息进行编码从而得到词向量。具体地,词向量编码模型可以为句子嵌入的简单对比学习(Simple Contrastive Learning of Sentence Embeddings,SimCSE)模型,SimCSE模型在需要对比不同数据的不同字段的相似度场景下,在精度和速度上都更加适用。通过SimCSE模型对每个子数据信息经过编码后都会得到1
×
768的向量,如果数据表中有C个字段,则会得到C个1
×
768维度的向量,即一个词向量集合中将会包括C个1
×
768维度的向量。
[0017]在一些技术方案中,可选地,外键识别算法模型由提升树模型进行训练得到。
[0018]在该技术方案中,外键识别算法模型是由提升树模型通过大量地训练形成地。不同于神经网络模型,提升树模型的好处是在提升树被创建后,可以相对直接地得到每个特征的重要性分数。一般来说,重要性分数衡量了一个特征在模型中的提升树构建中的价值。一个特征越多的被用来在模型中构建决策树,它的重要性就相对越高。特征的重要性是通过对数据集中的每个特征进行计算,并进行排序得到。在单个决策树中通过每个特征分裂点改进性能度量的量来计算特征重要性。由节点负责加权和记录次数,也就是说一个特征对分裂点改进性能度量越大(越靠近根节点),权值越大;被越多提升树所选择,特征越重要。性能度量可以是选择分裂节点的基尼系数(Gini)纯度,也可以是其他度量函数。通过选择提升树模型,利用提升树模型中的每个特征的重要性分数,从而使得外键识别算法模型具有了可解释性。
[0019]在一些技术方案中,可选地,提升树模型进行训练的步骤,包括:获取训练数据信息;对训练数据信息是否为数据表的外键信息进行判断;基于训练数据信息为数据表的外键信息,根据训练数据信息利用特征工程增加提升树模型中的特征值。
[0020]在该技术方案中,在对提升树模型进行训练时,需要将提升树模型和人工规则结合起来。神经网络模型的输入为向量,每个维度的值都为0

1之间的树。因此人工规则难以
应用到神经网络模型。而在提升树模型中,提升树模型本质是决策树,每次训练迭代都是根据具体值的增益熵来进行决断分裂,因此特征值越有物理意义效果越好。因此,在进行训练的过程中需要对训练数据信息进行判断,当训练数据信息是数据表的外键信息时,则获取训练数据信息的特征,如训练数据信息的长度等特征,然后通过特征工程将该特征作为特征值加入到提升树模型中。实现了提升树模型与人工规则的结合,提升了模型的准确性和可扩展性。
[0021]在一些技术方案中,可选地,提升树模型为极限梯度提升算法模型。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种外键信息的识别方法,其特征在于,包括:获取数据表中每条记录的数据信息;根据所述数据信息和所述数据表的字段确定与所述数据信息相对应的词向量集合;根据每条记录的所述词向量集合和外键识别算法模型识别所述数据表中的外键信息。2.根据权利要求1所述的外键信息的识别方法,其特征在于,所述获取数据表中每条记录的数据信息的步骤,包括:根据所述数据表确定多个按顺序排列的子数据表;根据多个所述子数据表的顺序获取所述子数据表中的每条记录的所述数据信息。3.根据权利要求1所述的外键信息的识别方法,其特征在于,所述根据所述数据信息和所述数据表的字段确定与所述数据信息相对应的词向量集合的步骤,包括:将所述数据信息按照所述数据表的字段分成多个子数据信息;根据所述子数据信息确定与所述子数据信息对应的词向量;将多个所述词向量进行合并得到所述词向量集合。4.根据权利要求3所述的外键信息的识别方法,其特征在于,所述根据所述子数据信息确定与所述子数据信息对应的词向量的步骤,包括:获取词向量编码模型;利用所述词向量编码模型对所述子数据信息进行编码得到所述词向量。5.根据权利要求1所述的外键信息的识别方法,其特征在于,所述外键识别算法模...

【专利技术属性】
技术研发人员:任欣源
申请(专利权)人:用友网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1