一种基于深度学习的知识抽取方法与装置制造方法及图纸

技术编号：25757177 阅读：19 留言：0更新日期：2020-09-25 21:06

本发明专利技术公开了一种基于深度学习的知识抽取方法与装置。首先，本发明专利技术使用BERT+CNN模型抽取百科文本中存在的多种关系，该模型改进了CNN基本结构并增加Attention机制，进而提高抽取精度。接着，枚举抽取的多种关系，根据关系类型识别文本对应的头实体和尾实体，并使用基于概率的实体对筛选方法筛选实体对。最后，基于文本相似度的实体消歧算法实现筛选实体对中实体的消岐，该算法解决实体消歧可参照信息量少的问题。本发明专利技术在减少知识抽取计算量的同时，可以准确、全面地从百科文本中抽取三元组知识。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的知识抽取方法与装置
本专利技术涉及一种基于深度学习的知识抽取方法与装置，该方法使用深度学习技术对百科文本进行知识抽取，属于自然语言处理

技术介绍
随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步，互联网已经成为人们获取信息和资源最主要途径。百度百科、互动百科、维基百科网站等一些网络百科项目，是人们欢迎、使用广泛的参考工具书。例如，许多网民将维基百科视为一个重要信息来源。然而，百科文本内容纷繁杂乱，包含大量描述性语句。用户需要阅读大段的描述性语句才能获取自己想要的信息。知识抽取技术可以屏蔽原始数据的繁琐细节，从原始数据中提炼出简洁的知识。使用知识抽取技术从百科文本中抽取知识，有助于用户快速理解文本内容。当前知识抽取主流方法分为实体识别、关系抽取和实体消歧三个步骤。实体识别，又称命名实体识别(NamedEntityRecognition)，目标是抽取出文本中存在的多个实体，主流的方法包括基于规则的方法和基于机器学习的方法。实体识别后，穷举所有实体对，使用关系抽取技术抽取实体可能存在的关系。实体消歧可以在一定的上下文语境中，确定给定命名实体指称真正指向的实体概念。当前的知识抽取技术应用到百科文本中还存在以下问题：首先，百科文本通常一句话包含有多个实体。如果采用先实体识别再关系抽取的顺序，穷举多个实体对会大大增加知识抽取的计算量；其次，百科文本会出现包含多种关系和多个三元组的情况，从而导致准确率过低；最后，单个文本中抽取的实体相关描述信息量很少，难以利用少量的信息实现实...

【技术保护点】
1.一种基于深度学习的知识抽取方法，其特征在于，包括如下步骤：/n(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系，所述BERT+CNN模型通过BERT模型生成句子嵌入向量，并通过CNN模型抽取语义特征，CNN模型中增加Attention机制以加强特征抽取能力；/n(2)对步骤(1)中抽取的每个关系，将其余对应的百科文本同时输入BERT模型，识别每个关系对应的头尾实体节点，针对每个文本序列，输出头实体的起始概率和结束概率，以及，尾实体的起始概率和结束概率；/n(3)根据步骤(2)输出的概率，去除重复实体，并根据就近原则筛选实体对；/n(4)计算筛选的实体与百科中的实体之间的相似度，并根据相似度找到百科中对应的实体，完成实体消歧过程。/n

【技术特征摘要】
1.一种基于深度学习的知识抽取方法，其特征在于，包括如下步骤：
(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系，所述BERT+CNN模型通过BERT模型生成句子嵌入向量，并通过CNN模型抽取语义特征，CNN模型中增加Attention机制以加强特征抽取能力；
(2)对步骤(1)中抽取的每个关系，将其余对应的百科文本同时输入BERT模型，识别每个关系对应的头尾实体节点，针对每个文本序列，输出头实体的起始概率和结束概率，以及，尾实体的起始概率和结束概率；
(3)根据步骤(2)输出的概率，去除重复实体，并根据就近原则筛选实体对；
(4)计算筛选的实体与百科中的实体之间的相似度，并根据相似度找到百科中对应的实体，完成实体消歧过程。

2.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(1)中在CNN模型卷积核结构基础上加入残差，设第l层卷积层输入序列为其中n为序列长度，为长度d的向量，卷积宽度为k，卷积核参数为W∈R2d×kd，bw∈R2d，卷积核计算方式如下：

其中张量大小为R2d，函数υ将该张量分为两部分，其中一个张量通过一个Sigmoid激活函数，再与另一个张量点积。

3.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(1)中注意力机制在卷积神经网络中逐层计算，并且注意力范围随网络层数增加而扩大。

4.根据权利要求1所述的一种基于深度学习的知识抽取方法，其特征在于，所述步骤(3)中包括：
(3.1)枚举句子中的子串，每个子串分别计算作为头节点的概率headij和尾节点的概率tailij，若子串作为头节点的概率高于设定阈值则加入头节点待选集合，若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合；其中为文本序列中第i个位置成为头节点开始位置的概率，为第j个位置成为头节点结束位置的概率，为第i个位置成为尾节点...

【专利技术属性】
技术研发人员：杨鹏，杨浩然，李文翰，
申请(专利权)人：南京优慧信安科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人