一种识别结构化数据实体类型的方法及装置制造方法及图纸

技术编号:34275106 阅读:25 留言:0更新日期:2022-07-24 16:57
一种识别结构化数据实体类型的方法及装置,用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。所述方法包括:获取数据库的多张数据表;针对每张数据表内的结构化数据,通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号;所述字段信息包括字段名称和字段描述;将所述多张数据表中映射到相同节点编号的字段进行聚合,得到所述多张数据表的各字段对应的节点编号;将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中,预测所述节点编号对应的实体类型,得到所述多张数据表各字段对应的实体类型。体类型。体类型。

A method and device for identifying structured data entity types

【技术实现步骤摘要】
一种识别结构化数据实体类型的方法及装置


[0001]本申请涉及信息抽取
,尤其涉及一种识别结构化数据实体类型的方法及装置。

技术介绍

[0002]随着人工智能技术的快速发展,在数字化转型过程中,知识图谱已被广泛应用于各个行业。知识图谱利用可视化的图谱形象地展示了学科的核心结构、发展历史、前沿领域以及整体知识架构。实体类型的识别与抽取作为知识图谱构建的前置阶段,是实现知识图谱自动化构建过程中的重要环节。如何在海量、庞杂的结构化数据中,对实体类型进行识别与提取,并与行业需求深度融合,是目前信息抽取技术的主要任务之一。
[0003]目前针对数据库表处理到进一步建立知识图谱,通常是基于模板或规则的方式,利用手工编织规则的方法挖掘数据中现存的关系模式。但此种方式一方面,由于语言规则的复杂多样性,需要消耗大量的人力来编写规则;另一方面,同一实体类型存在多种表达方式,使用模板或规则的方式对实体类型进行识别可能存在准确率较低的情况。
[0004]因此,目前亟需一种方案,用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。

技术实现思路

[0005]本申请提供一种识别结构化数据实体类型的方法及装置,用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。
[0006]第一方面,本申请实施例提供一种识别结构化数据实体类型的方法,该方法包括:获取数据库的多张数据表;针对每张数据表内的结构化数据,通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号;所述字段信息包括字段名称和字段描述;将所述多张数据表中映射到相同节点编号的字段进行聚合,得到所述多张数据表的各字段对应的节点编号;将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中,预测所述节点编号对应的实体类型,得到所述多张数据表各字段对应的实体类型。
[0007]上述技术方案中,先对每张数据表内的相似的字段进行聚合,再将所有数据表中映射到相同节点编号的字段进行聚合后,对各节点编号的实体类型进行预测,两次聚合的方式并结合字段名称和字段描述多种信息对字段的实体类型进行识别,可以提高识别实体类型的准确率。
[0008]在一种可能的设计中,所述方法还包括:对于所述字段描述长的字段,将所述字段描述进行分词处理,得到多个词段。
[0009]上述技术方案中,较长的描述字段可能包含丰富的信息,将其进行分词处理后,在对该字段的实体类型进行预测,可以提高识别实体类型的准确性。
[0010]在一种可能的设计中,所述方法还包括:根据所述各字段的字段描述、分词处理后
的多个词段以及所述各字段对应的实体类型建立词库模型。
[0011]上述技术方案中,随着实际业务场景的增加以及更多数据表的接入,词库模型数据量也更丰富,待积累一定量的数据后,词库模型可独立于分类器模型进行使用。
[0012]在一种可能的设计中,所述分类器模型通过如下方式训练:将所述各字段的字段描述和字段名称进行特征工程处理后,输入到分类器模型中对所述分类器模型进行训练。
[0013]在一种可能的设计中,所述表示学习模型通过如下方式训练:选取训练集和测试集;对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注,将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型,输入到表示学习模型中进行训练;使用所述测试集对训练后的表示学习模型进行评估。
[0014]上述技术方案中,最终训练好的表示学习模型用于实体类型的识别,对后续接入的业务数据具备一定的泛化能力。
[0015]在一种可能的设计中,所述针对每张数据表内的结构化数据,通过计算各字段信息之间的相似度或通过已训练的分类器将相似的字段映射到一个节点编号之前,还包括针对每张数据表内的结构化数据进行预处理;所述预处理包括:数据的选择、异常数据处理。
[0016]上述技术方案中,通过预处理过滤掉输入不规范、明显无效的字段信息,可以将杂乱无章的输入数据转换为相对干净的数据。
[0017]在一种可能的设计中,所述使用所述测试集对所述表示学习模型进行评估,包括:采用mean_rank和hit@10作为评价指标对所述表示学习模型进行评估。
[0018]上述技术方案中,采用mean_rank和hit@10作为评价指标对表示学习模型进行评估,以便根据得到的评估结果及时对表示学习模型进行修正。
[0019]第二方面,本申请实施例提供一种识别结构化数据实体类型的装置,包括:
[0020]获取模块,用于获取数据库的多张数据表;
[0021]处理模块,用于针对每张数据表内的结构化数据,通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号;所述字段信息包括字段名称和字段描述;
[0022]所述处理模块,还用于将所述多张数据表中映射到相同节点编号的字段进行聚合,得到所述多张数据表的各字段对应的节点编号;
[0023]所述处理模块,还用于将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中,预测所述节点编号对应的实体类型,得到所述多张数据表各字段对应的实体类型。
[0024]在一种可能的设计中,所述处理模块,还用于对于所述字段描述长的字段,将所述字段描述进行分词处理,得到多个词段。
[0025]在一种可能的设计中,所述处理模块,还用于根据所述各字段的字段描述、分词处理后的多个词段以及所述各字段对应的实体类型建立词库模型。
[0026]在一种可能的设计中,所述处理模块,还用于对分类器模型进行训练,训练方式如下:将所述各字段的字段描述和字段名称进行特征工程处理后,输入到分类器模型中对所述分类器模型进行训练。
[0027]在一种可能的设计中,所述处理模块,还用于对表示学习模型进行训练,训练方式如下:选取训练集和测试集;对所述训练集和所述测试集中每张数据表各字段的实体类型
进行标注,将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型,输入到表示学习模型中进行训练;使用所述测试集对训练后的表示学习模型进行评估。
[0028]在一种可能的设计中,所述处理模块,还用于针对每张数据表内的结构化数据进行预处理;所述预处理包括:数据的选择、异常数据处理。
[0029]在一种可能的设计中,所述处理模块,还用于采用mean_rank和hit@10作为评价指标对所述表示学习模型进行评估。
[0030]第三方面,本申请实施例还提供一种计算设备,包括:
[0031]存储器,用于存储程序指令;
[0032]处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面的各种可能的设计中所述的方法。
[0033]第四方面,本申请实施例还提供一种计算机可读存储介质,其中存储有计算机可读指令,当计算机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别结构化数据实体类型的方法,其特征在于,所述方法包括:获取数据库的多张数据表;针对每张数据表内的结构化数据,通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号;所述字段信息包括字段名称和字段描述;将所述多张数据表中映射到相同节点编号的字段进行聚合,得到所述多张数据表的各字段对应的节点编号;将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中,预测所述节点编号对应的实体类型,得到所述多张数据表各字段对应的实体类型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:对于所述字段描述长的字段,将所述字段描述进行分词处理,得到多个词段。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:根据所述各字段的字段描述、分词处理后的多个词段以及所述各字段对应的实体类型建立词库模型。4.根据权利要求1所述的方法,其特征在于,所述分类器模型通过如下方式训练:将所述各字段的字段描述和字段名称进行特征工程处理后,输入到分类器模型中对所述分类器模型进行训练。5.根据权利要求1所述的方法,其特征在于,所述表示学习模型通过如下方式训练:选取训练集和测试集;对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注;将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型,输入到表示学习模型中进行训练;使用所述测试集对训练后的表示学习模型进行评估。6.根据权利要求1所述的方法,其特征在于,所述针对...

【专利技术属性】
技术研发人员:郭徽王龙陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1