基于属性共现和标签共现的列语义自动识别方法与系统技术方案

技术编号:38985715 阅读:8 留言:0更新日期:2023-10-07 10:16
本发明专利技术属于文本信息的智能处理技术领域,涉及一种基于属性共现和标签共现的列语义自动识别方法与系统,包括以下步骤:将待识别列输入CAI模型,通过共现属性丰富待识别列语义,输出预测标签序列,将待识别列中不规范的关系表映射到规范的元数据标准上;将预测标签序列输入纠错模型,根据语义标签中的共现依赖性,判断标签预测是否存在错误,若存在错误去除错误标签,对CAI模型的预测结果进行优化。其构建的标准元数据标签体系,不依赖于原始关系表可能存在缺失、不明确的表结构以及表名、列名等信息,并充分融入关系表的上下文信息以及属性标签之间的共现性,更好的解决语义歧义问题和模型对关系表的列顺序依赖问题,显著提升关系数据的列语义识别准确度。数据的列语义识别准确度。数据的列语义识别准确度。

【技术实现步骤摘要】
基于属性共现和标签共现的列语义自动识别方法与系统


[0001]本专利技术涉及一种基于属性共现和标签共现的列语义自动识别方法、系统和可读介质,属于文本信息的智能处理


技术介绍

[0002]随着政府部门的业务信息化建设的发展,人们需要更高效、便捷的公共服务,如何解决“信息孤岛”问题、实现政务数据的跨域互联互通,是其中的重点及难点问题。现阶段,我国不同区域、不同行业、不同层级、不同业务之间存在较大差异,难以实现信息化统筹建设,包括过往存储的数据繁多且没有统一的标准,难以进行重新梳理和修改;政务数据被分割存储在不同部门的信息系统中,无法实现互联互通、整合利用。通常来说,现有方法多是基于“物理数据汇聚”,也就是通过国家成立的“大数据局”将各部门的数据重构规范后,再转回原部门进行后续的存储与处理。这种方法存在一些问题,重构业务表单,要重新梳理原业务系统,工作量大以及数据的汇聚造成大量的成本开销等问题。
[0003]具体的,现有技术列语义识别技术可以分为三大类:即基于知识库、基于统计特征和基于深度学习语义表示的列语义识别技术。
[0004]基于知识库的列语义识别技术是一种基本的语义识别方式是利用外部知识库将语义标签分配给表中的各个元素,如直接基于这些知识库自带的lookup服务进行查询;利用外部知识库的实体链接注释关系列中的所有项,然后利用随机实体链接来估计属性标签;通过对带有语言参数的多个服务执行实体查找和采用文字列匹配来找到相关属性等,来获取和关系列相匹配的语义类型。
[0005]基于统计特征的列语义识别技术为了使标签相似性取决于内容的相似性,而不是不规范列名的表面形式。其通过有用的特征进一步理解表的语义,利用统计特征表示数据相似度来匹配属性的语义类型。从关系列的整体内容中获取一些单列特征(如:字符数、单元格的长度、列的最大最小值等)来描述不同的模式标签;用统计检验方法来进行列值比较。该方案只使用了列值来预测其类型,而没有考虑到列在表格中的上下文信息等,这无法解决歧义问题。
[0006]随着深度学习技术的发展,许多的工作开始用深度学习模型对关系列进行语义表示。在深度学习语义表示的列语义识别技术中元数据信息,例如表名、列名和表结构对列内容的理解至关重要,但在实践中往往元数据信息存在缺失、不完整或不明确等问题,为了解决这种依赖,该类方法将关系列内容映射到词向量空间,然后利用深度学习模型学习单元格级别和列级别的语义表示。在此基础上,一些方案进一步考虑关系表的主题信息和局部上下文信息,如:将同一表格中的其他列整体按行拼接看做待识别列的上下文,增强关系列的语义表示,从而提高分类到语义类型的准确率。尽管关系表上下文信息的加入可以丰富列的语义表示,但是关系表不同于一般的文本数据,是结构化数据,具有列顺序无关性的特征。而现有的模型忽略了这个特性,导致出现列顺序依赖,交换列的顺序会对模型的预测结果造成较大的干扰。
[0007]上述方法中,一方面,忽略了关系数据的列顺序无关性特征,另一方面,忽略了同一关系主题下属性标签的相关性特征,而本文提出的基于两阶段的方法可以很好地解决这些问题,并且充分利用自注意力机制可以提高模型训练速度。

技术实现思路

[0008]针对上述问题,本专利技术的目的是提供一种基于属性共现和标签共现的列语义自动识别方法、系统和可读介质,其构建的标准元数据标签体系,不依赖于原始关系表可能存在缺失、不明确的表结构以及表名、列名等信息,使用属性实例补充语义,并充分融入关系表的上下文信息以及属性标签之间的共现性,更好的解决语义歧义问题和模型对关系表的列顺序依赖问题,显著提升关系数据的列语义识别准确度。
[0009]为实现上述目的,本专利技术提出了以下技术方案:一种基于属性共现和标签共现的列语义自动识别方法,包括以下步骤:将所述待识别列输入CAI模型,通过共现属性丰富待识别列语义,输出预测标签序列,将待识别列中不规范的关系表映射到规范的元数据标准上;将所述预测标签序列输入纠错模型,根据语义标签中的共现依赖性,判断标签预测是否存在错误,若存在错误去除错误标签,对CAI模型的预测结果进行优化。
[0010]进一步,将所述待识别列输入CAI模型后,对所述待识别列进行属性列线性化编码,将若干列表格输入所述CAI模型,对每一列进行线性化,将待识别列按行拼接成一段文本,对经过拼接后的文本Token化,将经过Token化的文本映射到向量空间,并输入经过预训练的BERT(Bidirectional Encoder Representations from Transformers)
[0011]模型生成每一列的初步列向量。
[0012]进一步,将由若干所述初步列向量组成的向量矩阵输入Transformer

Encoder模型,进行共现属性列交互,得到包括共现属性列信息的列向量。
[0013]进一步,通过若干层的自注意力模型实现同一关系主题下的所述共现属性列交互,所述自注意力模型用于捕捉各列属性间的依赖关系,通过共现属性在相似语义候选项中选择最准确的词作为该列的语义表示。
[0014]进一步,将包括共现属性列信息的列向量输入多层感知器网络,将所述多层感知器网络输出的向量经过Softmax归一化,得到各个输出向量对应到每个语义类别的概率,将每个输出向量对应到语义标签集合中概率最高的语义类比作为该列的预测标签。
[0015]进一步,所述多层感知器网络包括全连接层和tanh激活函数层,所述tanh激活函数层利用tanh激活函数学习非线性特征。
[0016]进一步,所述Softmax归一化的公式为:
[0017]logits=softmax(W2×
tanh(W1×
cols_out+b1)+b2)
[0018]其中,logits是输出向量映射到每个类别标签的概率,tanh是激活函数,cols_out是包括共现属性列信息的列向量组成的列向量,W1、W2是权重矩阵,b1、b2是偏差参数。
[0019]进一步,将所述预测标签序列输入纠错模型,将每个与输入标签对应的输出进行Softmax归一化,计算出映射到各个语义类别概率,将概率最高的语义类别作为该列的最终语义类别。
[0020]本专利技术还公开了一种基于属性共现和标签共现的列语义自动识别系统,包括:标签预测模块,用于将所述待识别列输入CAI模型,通过共现属性丰富待识别列语义,输出预
测标签序列,将待识别列中不规范的关系表映射到规范的元数据标准上;纠错模块,用于将所述预测标签序列输入纠错模型,根据语义标签中的共现依赖性,判断标签预测是否存在错误,若存在错误去除错误标签,对CAI模型的预测结果进行优化。
[0021]本专利技术还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现上述任一项所述的基于属性共现和标签共现的列语义自动识别方法。
[0022]本专利技术由于采取以上技术方案,其具有以下优点:
...

【技术保护点】

【技术特征摘要】
1.一种基于属性共现和标签共现的列语义自动识别方法,其特征在于,包括以下步骤:将所述待识别列输入CAI模型,通过共现属性丰富待识别列语义,输出预测标签序列,将待识别列中不规范的关系表映射到规范的元数据标准上;将所述预测标签序列输入纠错模型,根据语义标签中的共现依赖性,判断标签预测是否存在错误,若存在错误去除错误标签,对CAI模型的预测结果进行优化。2.如权利要求1所述的基于属性共现和标签共现的列语义自动识别方法,其特征在于,将所述待识别列输入CAI模型后,对所述待识别列进行属性列线性化编码,将若干列表格输入所述CAI模型,对每一列进行线性化,将待识别列按行拼接成一段文本,对经过拼接后的文本Token化,将经过Token化的文本映射到向量空间,并输入经过预训练的BERT模型生成每一列的初步列向量。3.如权利要求2所述的基于属性共现和标签共现的列语义自动识别方法,其特征在于,将由若干所述初步列向量组成的向量矩阵输入Transformer

Encoder模型,进行共现属性列交互,得到包括共现属性列信息的列向量。4.如权利要求3所述的基于属性共现和标签共现的列语义自动识别方法,其特征在于,通过若干层的自注意力模型实现同一关系主题下的所述共现属性列交互,所述自注意力模型用于捕捉各列属性间的依赖关系,通过共现属性在相似语义候选项中选择最准确的词作为该列的语义表示。5.如权利要求3所述的基于属性共现和标签共现的列语义自动识别方法,其特征在于,将包括共现属性列信息的列向量输入多层感知器网络,将所述多层感知器网络输出的向量经过Softmax归一化,得到各个输出向量对应到每个语义类别的概率,将每个输出向量对应到语义标签集合中概率最高的语...

【专利技术属性】
技术研发人员:卢卫杜小勇张静高珊袁宛竹王兰
申请(专利权)人:中国人民大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1