基于属性共现和标签共现的列语义自动识别方法与系统技术方案

技术编号：38985715 阅读：8 留言：0更新日期：2023-10-07 10:16

本发明专利技术属于文本信息的智能处理技术领域，涉及一种基于属性共现和标签共现的列语义自动识别方法与系统，包括以下步骤：将待识别列输入CAI模型，通过共现属性丰富待识别列语义，输出预测标签序列，将待识别列中不规范的关系表映射到规范的元数据标准上；将预测标签序列输入纠错模型，根据语义标签中的共现依赖性，判断标签预测是否存在错误，若存在错误去除错误标签，对CAI模型的预测结果进行优化。其构建的标准元数据标签体系，不依赖于原始关系表可能存在缺失、不明确的表结构以及表名、列名等信息，并充分融入关系表的上下文信息以及属性标签之间的共现性，更好的解决语义歧义问题和模型对关系表的列顺序依赖问题，显著提升关系数据的列语义识别准确度。数据的列语义识别准确度。数据的列语义识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
基于属性共现和标签共现的列语义自动识别方法与系统

[0001]本专利技术涉及一种基于属性共现和标签共现的列语义自动识别方法、系统和可读介质，属于文本信息的智能处理

技术介绍

[0002]随着政府部门的业务信息化建设的发展，人们需要更高效、便捷的公共服务，如何解决“信息孤岛”问题、实现政务数据的跨域互联互通，是其中的重点及难点问题。现阶段，我国不同区域、不同行业、不同层级、不同业务之间存在较大差异，难以实现信息化统筹建设，包括过往存储的数据繁多且没有统一的标准，难以进行重新梳理和修改；政务数据被分割存储在不同部门的信息系统中，无法实现互联互通、整合利用。通常来说，现有方法多是基于“物理数据汇聚”，也就是通过国家成立的“大数据局”将各部门的数据重构规范后，再转回原部门进行后续的存储与处理。这种方法存在一些问题，重构业务表单，要重新梳理原业务系统，工作量大以及数据的汇聚造成大量的成本开销等问题。
[0003]具体的，现有技术列语义识别技术可以分为三大类：即基于知识库、基于统计特征和基于深度学习语义表示的列语义识别技术。
[0004]基于知识库的列语义识别技术是一种基本的语义识别方式是利用外部知识库将语义标签分配给表中的各个元素，如直接基于这些知识库自带的lookup服务进行查询；利用外部知识库的实体链接注释关系列中的所有项，然后利用随机实体链接来估计属性标签；通过对带有语言参数的多个服务执行实体查找和采用文字列匹配来找到相关属性等，来获取和关系列相匹配的语义类型。
[0005]基于统计特征

【技术保护点】

【技术特征摘要】
1.一种基于属性共现和标签共现的列语义自动识别方法，其特征在于，包括以下步骤：将所述待识别列输入CAI模型，通过共现属性丰富待识别列语义，输出预测标签序列，将待识别列中不规范的关系表映射到规范的元数据标准上；将所述预测标签序列输入纠错模型，根据语义标签中的共现依赖性，判断标签预测是否存在错误，若存在错误去除错误标签，对CAI模型的预测结果进行优化。2.如权利要求1所述的基于属性共现和标签共现的列语义自动识别方法，其特征在于，将所述待识别列输入CAI模型后，对所述待识别列进行属性列线性化编码，将若干列表格输入所述CAI模型，对每一列进行线性化，将待识别列按行拼接成一段文本，对经过拼接后的文本Token化，将经过Token化的文本映射到向量空间，并输入经过预训练的BERT模型生成每一列的初步列向量。3.如权利要求2所述的基于属性共现和标签共现的列语义自动识别方法，其特征在于，将由若干所述初步列向量组成的向量矩阵输入Transformer
‑
Encoder模型，进行共现属性列交互，得到包括共现属性列信息的列向量。4.如权利要求3所述的基于属性共现和标签共现的列语义自动识别方法，其特征在于，通过若干层的自注意力模型实现同一关系主题下的所述共现属性列交互，所述自注意力模型用于捕捉各列属性间的依赖关系，通过共现属性在相似语义候选项中选择最准确的词作为该列的语义表示。5.如权利要求3所述的基于属性共现和标签共现的列语义自动识别方法，其特征在于，将包括共现属性列信息的列向量输入多层感知器网络，将所述多层感知器网络输出的向量经过Softmax归一化，得到各个输出向量对应到每个语义类别的概率，将每个输出向量对应到语义标签集合中概率最高的语...

【专利技术属性】
技术研发人员：卢卫，杜小勇，张静，高珊，袁宛竹，王兰，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人