基于深度神经网络的实体及关系联合抽取方法技术

技术编号:27031384 阅读:24 留言:0更新日期:2021-01-12 11:14
本发明专利技术属于信息处理领域,为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本发明专利技术提供一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统,使用深度神经网络采用一体化的方法实现将实体识别和关系抽取进行联合训练学习,并且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。

【技术实现步骤摘要】
基于深度神经网络的实体及关系联合抽取方法
本专利技术涉及信息处理领域,尤其涉及一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统。
技术介绍
在知识图谱中,大量的知识,诸如开放数据库和百科全书中的信息,通常以关系数据集合的形式被表达出来。而在关系数据集合中,基本事实被抽象为实体,而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点,关系对应于边,则这些知识可以进一步以图的形式呈现,从而可以被计算机高效的使用,而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。实体识别和关系抽取技术是信息抽取的核心技术,目标是从非结构化的文本中抽取出“实体1-关系-实体2”这样的三元组。目前常用的方法是采用流水线的方式进行三元组抽取:先将文本送入模型1中进行实体识别,然后对识别出的实体两两组合,再分别送入模型2中进行关系分类,最后再将实体对及对应的关系组合为三元组进行输出。采用流水线的抽取方式主要存在以下几个问题:1)知识的错误传播,实体识别模块中识别出的错误实体会影响关系分类模块的效果;2)知识无法共享,现有的基于神经网络的方法需要对输入文本进行隐含知识的学习和表示,流水线的方式造成关系分类模块无法充分利用实体识别时隐含的实体类别等信息。
技术实现思路
为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本专利技术提供一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统,使用深度神经网络采用一体化的方法实现将实体识别和关系抽取进行联合训练学习,并且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。本专利技术一方面提供一种基于深度神经网络的实体及关系联合抽取方法,其特征在于,包括:对输入文本进行文本切分处理,得到文本处理后的分词;对文本处理后的分词进行向量处理,并将向量化后分词输入至长短期记忆神经网络,对文本进行正向编码和反向编码;将所述正向编码和所述反向编码进行文本特征拼接处理,得到每个词语融合上下文信息后的特征;采用条件随机场算法获取实体标签间的条件转移概率及每个词语在实体标签上的概率分布,并将每个词语在对应的概率值最大的实体标签进行向量化表示;将文本中每个词语融合上下文信息后的特征与对应的标签向量表示,进行合并处理;依次遍历文本中的每个词语,并将每个词语对应的向量特征与文本中的其它词语对应的向量特征,按照文本处理过程中的包括分词、文本向量化、长短期记忆神经网络的正向和反向编码、特征融合、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、特征之间进行注意力运算对应的深度神经网络模型,进行关系分类处理,基于关系分类处理结果,抽取出文本中包含的实体及实体间对应的关系。本专利技术实施例优选的实施方式中,所述关系分类处理包括:将每个词语对应的向量与文本中的其它词语对应的向量进行注意力操作,并采用多分类的方式来判断两个词语之间是否存在关系或多个关系;基于两个词语之间的判断结果,抽取出文本中包含的实体及实体间对应的关系。本专利技术实施例优选的实施方式中,所述关系分类处理基于深度神经网络的实体及关系联合抽取方法对实体标签采用BIO标注方式进行标注;所述BIO标注包括:实体的开始位置标签,实体的非起始位置标签,非实体部分的标签;对关系标签采用多分类方式进行抽取。本专利技术实施例进一步优选的实施方式中,所述对实体标签采用BIO标注方式进行标注和关系标签采用多分类方式进行抽取,具体包括:将得到的词向量送入到一个k层由正向和反向组成的双向长短期记忆神经网络中进行学习,并在最后将得到的正向和反向的输出进行拼接,得到由矩阵Ml构成的文本;将双向长短期记忆神经网络的输出送入条件随机场算法层进行学习,得到条件概率转移矩阵Mt和实体标签矩阵Mb,其中,Mb是对文本T中每个词语在实体标签概率分布上取最大概率值的结果;在BIO标注处理层对实体标签矩阵Mb进行向量化,得到向量化矩阵Me;将所述矩阵Ml和所述矩阵Me按行进行拼接,得到矩阵Mr;遍历Mr中每个词语对应的向量,基于所述每个词语对应的向量与其它词语对应的向量进行注意力计算,得到关系概率分布R;基于所述实体标签矩阵Mb和所述关系概率分布R,统计文本中所包含的实体标签及对应的关系,根据系统参数和阈值,过滤掉概率值较低或无效的关系,抽取出文本中包含的实体及实体间对应的关系。本专利技术实施例更进一步优选的实施方式中,上述方法还包括:读取数据,对文本进行切分,得到切分后的文本T;将切分后的文本送入词嵌入层,进行词嵌入操作,每个词语会被表示为一个D维的向量;文本T可表示为一个L×D的矩阵,其中L为文本切分后的最大长度。本专利技术实施例优选的实施方式中,上述方法还包括:对长短期记忆神经网络、正向编码和反向编码进行文本特征拼接处理、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、文本中每个词语融合上下文信息后的特征与对应的标签向量表示的合并处理,进行模型训练,并通过收敛方式或者最大迭代次数的训练方式,获取模型参数。本专利技术实施例优选的实施方式中,基于训练后的模型参数,对待处理文本,执行实体及关系联合抽取,抽取出所述待处理文本中包含的实体及实体间对应的关系。本专利技术实施例优选的实施方式中,所述基于深度神经网络的实体及关系联合抽取方法应用于python3和tensorflow的环境,并且通过python语言编写,应用介质为python脚本。本专利技术第二方面还提供一种非易失性存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如第一方面提供的任一项所述的基于深度神经网络的实体及关系联合抽取方法。本专利技术第三方面还提供一种数据处理系统,其特征在于,包括:存储器,处理器,以及计算机程序;其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面提供的任一项所述的基于深度神经网络的实体及关系联合抽取方法。本申请在实体识别和关系分类中,通过深度神经网络采用一体化的方法,实现将实体识别和关系抽取进行联合训练学习,简化数据处理流程,实现知识共享能有效提高信息抽取的准确度。而且对输入的文本无需人工干预组合实体,能够自动抽取出文本中包含的实体及实体间存在的关系。专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书变得显而易见,或者通过实施本专利技术的技术方案而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。附图说明图1为本专利技术实施例提供一种基于深度神经网络的实体及关系联合抽取方法的流程图。图2本专利技术实施例提供一种深度神经网络模型的架构的示意图。图3为本专利技术实施例提供一种深度神经网络模型训练方法的流程图。本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的实体及关系联合抽取方法,其特征在于,包括:/n对输入文本进行文本切分处理,得到文本处理后的分词;/n对文本处理后的分词进行向量处理,并将向量化后分词输入至长短期记忆神经网络,对文本进行正向编码和反向编码;/n将所述正向编码和所述反向编码进行文本特征拼接处理,得到每个词语融合上下文信息后的特征;/n采用条件随机场算法获取实体标签间的条件转移概率及每个词语在实体标签上的概率分布,并将每个词语在对应的概率值最大的实体标签进行向量化表示;/n将文本中每个词语融合上下文信息后的特征与对应的标签向量表示,进行合并处理;/n依次遍历文本中的每个词语,并将每个词语对应的向量特征与文本中的其它词语对应的向量特征,按照文本处理过程中的包括分词、文本向量化、长短期记忆神经网络的正向和反向编码、特征融合、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、特征之间进行注意力运算对应的深度神经网络模型,进行关系分类处理,基于关系分类处理结果,抽取出文本中包含的实体及实体间对应的关系。/n

【技术特征摘要】
1.一种基于深度神经网络的实体及关系联合抽取方法,其特征在于,包括:
对输入文本进行文本切分处理,得到文本处理后的分词;
对文本处理后的分词进行向量处理,并将向量化后分词输入至长短期记忆神经网络,对文本进行正向编码和反向编码;
将所述正向编码和所述反向编码进行文本特征拼接处理,得到每个词语融合上下文信息后的特征;
采用条件随机场算法获取实体标签间的条件转移概率及每个词语在实体标签上的概率分布,并将每个词语在对应的概率值最大的实体标签进行向量化表示;
将文本中每个词语融合上下文信息后的特征与对应的标签向量表示,进行合并处理;
依次遍历文本中的每个词语,并将每个词语对应的向量特征与文本中的其它词语对应的向量特征,按照文本处理过程中的包括分词、文本向量化、长短期记忆神经网络的正向和反向编码、特征融合、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、特征之间进行注意力运算对应的深度神经网络模型,进行关系分类处理,基于关系分类处理结果,抽取出文本中包含的实体及实体间对应的关系。


2.根据权利要求1所述的方法,其特征在于,所述关系分类处理包括:将每个词语对应的向量与文本中的其它词语对应的向量进行注意力操作,并采用多分类的方式来判断两个词语之间是否存在关系或多个关系;基于两个词语之间的判断结果,抽取出文本中包含的实体及实体间对应的关系。


3.根据权利要求1所述的方法,其特征在于,所述关系分类处理基于深度神经网络的实体及关系联合抽取方法对实体标签采用BIO标注方式进行标注;所述BIO标注包括:实体的开始位置标签,实体的非起始位置标签,非实体部分的标签;对关系标签采用多分类方式进行抽取。


4.根据权利要求3所述的方法,其特征在于,所述对实体标签采用BIO标注方式进行标注和关系标签采用多分类方式进行抽取,具体包括:
将得到的词向量送入到一个k层由正向和反向组成的双向长短期记忆神经网络中进行学习,并在最后将得到的正向和反向的输出进行拼接,得到由矩阵Ml构成的文本;
将双向长短期记忆神经网络的输出送入条件随机场算法层进行学习,得到条件概率转移矩阵Mt和实体标签矩阵Mb,其中,Mb是对文本T中每个词...

【专利技术属性】
技术研发人员:刘永志王洪俊
申请(专利权)人:拓尔思信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1