【技术实现步骤摘要】
基于深度神经网络的实体及关系联合抽取方法
本专利技术涉及信息处理领域,尤其涉及一种基于深度神经网络的实体及关系联合抽取方法、非易失性存储介质和数据处理系统。
技术介绍
在知识图谱中,大量的知识,诸如开放数据库和百科全书中的信息,通常以关系数据集合的形式被表达出来。而在关系数据集合中,基本事实被抽象为实体,而规则、逻辑、推理等关联性的信息则被抽象为实体间的关系。若将实体对应于点,关系对应于边,则这些知识可以进一步以图的形式呈现,从而可以被计算机高效的使用,而这也是研究知识图谱的意义所在。这种将实体和抽象概念结构化成多关系数据集合的模式也是近年来被大力提倡的。实体识别和关系抽取技术是信息抽取的核心技术,目标是从非结构化的文本中抽取出“实体1-关系-实体2”这样的三元组。目前常用的方法是采用流水线的方式进行三元组抽取:先将文本送入模型1中进行实体识别,然后对识别出的实体两两组合,再分别送入模型2中进行关系分类,最后再将实体对及对应的关系组合为三元组进行输出。采用流水线的抽取方式主要存在以下几个问题:1)知识的错误传播,实体识别模块中识别出的错误实体会影响关系分类模块的效果;2)知识无法共享,现有的基于神经网络的方法需要对输入文本进行隐含知识的学习和表示,流水线的方式造成关系分类模块无法充分利用实体识别时隐含的实体类别等信息。
技术实现思路
为了解决现有技术中实体识别和关系抽取存在无法充分利用实体识别时隐含的实体类别信息的技术问题,本专利技术提供一种基于深度神经网络的实体及关系联合抽取方法、非易失 ...
【技术保护点】
1.一种基于深度神经网络的实体及关系联合抽取方法,其特征在于,包括:/n对输入文本进行文本切分处理,得到文本处理后的分词;/n对文本处理后的分词进行向量处理,并将向量化后分词输入至长短期记忆神经网络,对文本进行正向编码和反向编码;/n将所述正向编码和所述反向编码进行文本特征拼接处理,得到每个词语融合上下文信息后的特征;/n采用条件随机场算法获取实体标签间的条件转移概率及每个词语在实体标签上的概率分布,并将每个词语在对应的概率值最大的实体标签进行向量化表示;/n将文本中每个词语融合上下文信息后的特征与对应的标签向量表示,进行合并处理;/n依次遍历文本中的每个词语,并将每个词语对应的向量特征与文本中的其它词语对应的向量特征,按照文本处理过程中的包括分词、文本向量化、长短期记忆神经网络的正向和反向编码、特征融合、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、特征之间进行注意力运算对应的深度神经网络模型,进行关系分类处理,基于关系分类处理结果,抽取出文本中包含的实体及实体间对应的关系。/n
【技术特征摘要】
1.一种基于深度神经网络的实体及关系联合抽取方法,其特征在于,包括:
对输入文本进行文本切分处理,得到文本处理后的分词;
对文本处理后的分词进行向量处理,并将向量化后分词输入至长短期记忆神经网络,对文本进行正向编码和反向编码;
将所述正向编码和所述反向编码进行文本特征拼接处理,得到每个词语融合上下文信息后的特征;
采用条件随机场算法获取实体标签间的条件转移概率及每个词语在实体标签上的概率分布,并将每个词语在对应的概率值最大的实体标签进行向量化表示;
将文本中每个词语融合上下文信息后的特征与对应的标签向量表示,进行合并处理;
依次遍历文本中的每个词语,并将每个词语对应的向量特征与文本中的其它词语对应的向量特征,按照文本处理过程中的包括分词、文本向量化、长短期记忆神经网络的正向和反向编码、特征融合、条件随机场算法、条件转移概率及每个词语在实体标签上的概率分布处理、特征之间进行注意力运算对应的深度神经网络模型,进行关系分类处理,基于关系分类处理结果,抽取出文本中包含的实体及实体间对应的关系。
2.根据权利要求1所述的方法,其特征在于,所述关系分类处理包括:将每个词语对应的向量与文本中的其它词语对应的向量进行注意力操作,并采用多分类的方式来判断两个词语之间是否存在关系或多个关系;基于两个词语之间的判断结果,抽取出文本中包含的实体及实体间对应的关系。
3.根据权利要求1所述的方法,其特征在于,所述关系分类处理基于深度神经网络的实体及关系联合抽取方法对实体标签采用BIO标注方式进行标注;所述BIO标注包括:实体的开始位置标签,实体的非起始位置标签,非实体部分的标签;对关系标签采用多分类方式进行抽取。
4.根据权利要求3所述的方法,其特征在于,所述对实体标签采用BIO标注方式进行标注和关系标签采用多分类方式进行抽取,具体包括:
将得到的词向量送入到一个k层由正向和反向组成的双向长短期记忆神经网络中进行学习,并在最后将得到的正向和反向的输出进行拼接,得到由矩阵Ml构成的文本;
将双向长短期记忆神经网络的输出送入条件随机场算法层进行学习,得到条件概率转移矩阵Mt和实体标签矩阵Mb,其中,Mb是对文本T中每个词...
【专利技术属性】
技术研发人员:刘永志,王洪俊,
申请(专利权)人:拓尔思信息技术股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。