一种基于深度学习的知识抽取方法与装置制造方法及图纸

技术编号:25757177 阅读:19 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于深度学习的知识抽取方法与装置。首先,本发明专利技术使用BERT+CNN模型抽取百科文本中存在的多种关系,该模型改进了CNN基本结构并增加Attention机制,进而提高抽取精度。接着,枚举抽取的多种关系,根据关系类型识别文本对应的头实体和尾实体,并使用基于概率的实体对筛选方法筛选实体对。最后,基于文本相似度的实体消歧算法实现筛选实体对中实体的消岐,该算法解决实体消歧可参照信息量少的问题。本发明专利技术在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。

【技术实现步骤摘要】
一种基于深度学习的知识抽取方法与装置
本专利技术涉及一种基于深度学习的知识抽取方法与装置,该方法使用深度学习技术对百科文本进行知识抽取,属于自然语言处理

技术介绍
随着电子技术、计算机技术、互联网络技术等方面科学技术的不断发展与进步,互联网已经成为人们获取信息和资源最主要途径。百度百科、互动百科、维基百科网站等一些网络百科项目,是人们欢迎、使用广泛的参考工具书。例如,许多网民将维基百科视为一个重要信息来源。然而,百科文本内容纷繁杂乱,包含大量描述性语句。用户需要阅读大段的描述性语句才能获取自己想要的信息。知识抽取技术可以屏蔽原始数据的繁琐细节,从原始数据中提炼出简洁的知识。使用知识抽取技术从百科文本中抽取知识,有助于用户快速理解文本内容。当前知识抽取主流方法分为实体识别、关系抽取和实体消歧三个步骤。实体识别,又称命名实体识别(NamedEntityRecognition),目标是抽取出文本中存在的多个实体,主流的方法包括基于规则的方法和基于机器学习的方法。实体识别后,穷举所有实体对,使用关系抽取技术抽取实体可能存在的关系。实体消歧可以在一定的上下文语境中,确定给定命名实体指称真正指向的实体概念。当前的知识抽取技术应用到百科文本中还存在以下问题:首先,百科文本通常一句话包含有多个实体。如果采用先实体识别再关系抽取的顺序,穷举多个实体对会大大增加知识抽取的计算量;其次,百科文本会出现包含多种关系和多个三元组的情况,从而导致准确率过低;最后,单个文本中抽取的实体相关描述信息量很少,难以利用少量的信息实现实体消歧。
技术实现思路
专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出了一种基于深度学习的知识抽取方法与装置,在减少知识抽取计算量的同时,可以准确、全面地从百科文本中抽取三元组知识。技术方案:为实现上述专利技术目的,本专利技术所述的一种基于深度学习的知识抽取方法,首先使用BERT+CNN模型抽取百科文本中存在的多种关系;然后枚举存在的关系,根据关系识别文本中对应的头尾实体节点,并基于概率筛选实体对;最后根据相似度计算对识别出的实体进行实体消歧。该方法主要包括四个步骤,具体如下:(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。作为优选,所述步骤(1)中在CNN模型卷积核结构基础上加入残差,设第l层卷积层输入序列为其中n为序列长度,为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如下:其中张量大小为R2d,函数υ将该张量分为两部分,其中一个张量通过一个Sigmoid激活函数,再与另一个张量点积。作为优选,所述步骤(1)中注意力机制在卷积神经网络中逐层计算,并且注意力范围随网络层数增加而扩大。作为优选,所述步骤(3)中包括:(3.1)枚举句子中的子串,每个子串分别计算作为头节点的概率headij和尾节点的概率tailij,若子串作为头节点的概率高于设定阈值则加入头节点待选集合,若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合;其中为文本序列中第i个位置成为头节点开始位置的概率,为第j个位置成为头节点结束位置的概率,为第i个位置成为尾节点开始位置的概率,为第j个位置成为尾节点结束位置的概率;(3.2)若集合中存在某个子串与另一个子串存在相交的部分,则根据概率大小去除概率小的子串;(3.3)比较头实体节点待选集合和尾实体节点待选集合大小,在实体数量较多的集合中,每个实体就近匹配另一个集合中的实体,进而形成实体对。作为优选,所述步骤(4)中包括:(4.1)对于抽取的由头实体名、关系名和尾实体名组成的三元组知识中的实体名e,若与百科文本中对应句子归属的实体名eo相同,则e和eo属于同一实体,结束本次实体消歧过程;(4.2)根据实体名e查询百科中的实体及实体对应的文本描述,通过实体名筛选近似实体,筛选条件为待筛选实体名ecandi和实体名e重复字数超过两个实体名长度的一半,筛选出的实体存入待选实体集合;(4.3)对待选实体集合中的待选实体的实体描述进行筛选,生成实体描述集合,并计算和待消歧实体的相似度;其中待选实体和待消歧实体相似度包括实体名相似度和实体描述相似度,选择相似度最高的实体作为待消歧实体对应的实体。作为优选,步骤(4.3)中实体描述筛选方法为:对待选实体ecandi的实体描述按句子划分,逐个将句子集合中的句子和三元组知识所在句子t比较,若句子去掉停用词后与句子t存在重复词汇,则该句加入实体描述集合,参与到相似度计算中。基于相同的专利技术构思,本专利技术提供的一种基于深度学习的知识抽取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。基于相同的专利技术构思,本专利技术提供的一种存储装置,存储有可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的基于深度学习的知识抽取方法。有益效果:与现有技术相比,本专利技术具体如下优点:1、本专利技术采用先关系抽取,后实体识别的方式,大大减少了知识抽取的计算量。2、本专利技术改进了卷积神经网络结构,加入了残差和Attention机制,并提出实体对筛选方法,解决了同一文本中出现包含多种关系和多个三元组的情况,提高知识抽取精度。3、本专利技术提出一种基于文本相似度的实体消歧算法,该算法解决了实体消歧可参照信息量少的问题,通过比较抽取实体的文本和实体描述文本的相似度实现实体消歧。附图说明图1为本专利技术实施例的方法流程图。图2为本专利技术实施例的知识抽取模型结构图。图3为本专利技术实施例涉及的改进卷积神经网络结构图。图4为本专利技术实施例涉及的实体识别网络结构图。具体实施方式下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。如图1所示,本专利技术实施例以维基百科为例,公开的一种基于深度学习的知识抽取方法,具体实施步骤如下:步骤1,使用BERT+CNN模型抽取维基百科文本中存在的多种关系,改进CNN基本结构,并增加Attention机制以加强关键特征抽取能力。模型整体本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的知识抽取方法,其特征在于,包括如下步骤:/n(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;/n(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;/n(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;/n(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。/n

【技术特征摘要】
1.一种基于深度学习的知识抽取方法,其特征在于,包括如下步骤:
(1)使用BERT+CNN模型抽取百科文本中存在的实体间的关系,所述BERT+CNN模型通过BERT模型生成句子嵌入向量,并通过CNN模型抽取语义特征,CNN模型中增加Attention机制以加强特征抽取能力;
(2)对步骤(1)中抽取的每个关系,将其余对应的百科文本同时输入BERT模型,识别每个关系对应的头尾实体节点,针对每个文本序列,输出头实体的起始概率和结束概率,以及,尾实体的起始概率和结束概率;
(3)根据步骤(2)输出的概率,去除重复实体,并根据就近原则筛选实体对;
(4)计算筛选的实体与百科中的实体之间的相似度,并根据相似度找到百科中对应的实体,完成实体消歧过程。


2.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(1)中在CNN模型卷积核结构基础上加入残差,设第l层卷积层输入序列为其中n为序列长度,为长度d的向量,卷积宽度为k,卷积核参数为W∈R2d×kd,bw∈R2d,卷积核计算方式如下:



其中张量大小为R2d,函数υ将该张量分为两部分,其中一个张量通过一个Sigmoid激活函数,再与另一个张量点积。


3.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(1)中注意力机制在卷积神经网络中逐层计算,并且注意力范围随网络层数增加而扩大。


4.根据权利要求1所述的一种基于深度学习的知识抽取方法,其特征在于,所述步骤(3)中包括:
(3.1)枚举句子中的子串,每个子串分别计算作为头节点的概率headij和尾节点的概率tailij,若子串作为头节点的概率高于设定阈值则加入头节点待选集合,若子串作为尾节点的概率高于设定阈值则加入尾节点待选集合;其中为文本序列中第i个位置成为头节点开始位置的概率,为第j个位置成为头节点结束位置的概率,为第i个位置成为尾节点...

【专利技术属性】
技术研发人员:杨鹏杨浩然李文翰
申请(专利权)人:南京优慧信安科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1