一种识别结构化数据实体类型的方法及装置制造方法及图纸

技术编号：34275106 阅读：25 留言：0更新日期：2022-07-24 16:57

一种识别结构化数据实体类型的方法及装置，用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。所述方法包括：获取数据库的多张数据表；针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号；所述字段信息包括字段名称和字段描述；将所述多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号；将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中，预测所述节点编号对应的实体类型，得到所述多张数据表各字段对应的实体类型。体类型。体类型。

A method and device for identifying structured data entity types

全部详细技术资料下载

【技术实现步骤摘要】
一种识别结构化数据实体类型的方法及装置

[0001]本申请涉及信息抽取
，尤其涉及一种识别结构化数据实体类型的方法及装置。

技术介绍

[0002]随着人工智能技术的快速发展，在数字化转型过程中，知识图谱已被广泛应用于各个行业。知识图谱利用可视化的图谱形象地展示了学科的核心结构、发展历史、前沿领域以及整体知识架构。实体类型的识别与抽取作为知识图谱构建的前置阶段，是实现知识图谱自动化构建过程中的重要环节。如何在海量、庞杂的结构化数据中，对实体类型进行识别与提取，并与行业需求深度融合，是目前信息抽取技术的主要任务之一。
[0003]目前针对数据库表处理到进一步建立知识图谱，通常是基于模板或规则的方式，利用手工编织规则的方法挖掘数据中现存的关系模式。但此种方式一方面，由于语言规则的复杂多样性，需要消耗大量的人力来编写规则；另一方面，同一实体类型存在多种表达方式，使用模板或规则的方式对实体类型进行识别可能存在准确率较低的情况。
[0004]因此，目前亟需一种方案，用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。

技术实现思路

[0005]本申请提供一种识别结构化数据实体类型的方法及装置，用以解决现有技术中存在的识别结构化数据实体类型准确率不高的问题。
[0006]第一方面，本申请实施例提供一种识别结构化数据实体类型的方法，该方法包括：获取数据库的多张数据表；针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点...

【技术保护点】

【技术特征摘要】
1.一种识别结构化数据实体类型的方法，其特征在于，所述方法包括：获取数据库的多张数据表；针对每张数据表内的结构化数据，通过计算各字段信息之间的相似度或通过已训练的分类器模型将相似的字段映射到一个节点编号；所述字段信息包括字段名称和字段描述；将所述多张数据表中映射到相同节点编号的字段进行聚合，得到所述多张数据表的各字段对应的节点编号；将所述多张数据表的各字段信息和所述各字段对应的节点编号输入到已训练的表示学习模型中，预测所述节点编号对应的实体类型，得到所述多张数据表各字段对应的实体类型。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对于所述字段描述长的字段，将所述字段描述进行分词处理，得到多个词段。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据所述各字段的字段描述、分词处理后的多个词段以及所述各字段对应的实体类型建立词库模型。4.根据权利要求1所述的方法，其特征在于，所述分类器模型通过如下方式训练：将所述各字段的字段描述和字段名称进行特征工程处理后，输入到分类器模型中对所述分类器模型进行训练。5.根据权利要求1所述的方法，其特征在于，所述表示学习模型通过如下方式训练：选取训练集和测试集；对所述训练集和所述测试集中每张数据表各字段的实体类型进行标注；将所述训练集中多张数据表的各字段信息、所述各字段对应的节点编号以及标注好的各字段的实体类型，输入到表示学习模型中进行训练；使用所述测试集对训练后的表示学习模型进行评估。6.根据权利要求1所述的方法，其特征在于，所述针对...

【专利技术属性】
技术研发人员：郭徽，王龙，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人