一种基于深度学习的实体关系抽取方法技术

技术编号:24939057 阅读:29 留言:0更新日期:2020-07-17 21:09
本发明专利技术公开了一种基于深度学习的实体关系抽取方法。该方法使用卷积神经网络和循环神经网络对实体关系抽取,在CNN和LSTM神经网络上加入文本中的词向量特征和位置特征、局部特征和序列特征等。然后将卷积神经网络和循环神经网络组合在一起,分别组合成串联、并联的组合模型对实体关系进行抽取,从不同角度去学习特征,获得更加充分全面的学习能力,还在多种不同结构的神经网络的基础上,将卷积神经网络和循环神经网络组合在一起,分别使用了串联、并联的方式对样本进行自动抽取。最后联合了多个基于深度学习的模型,将利用之前设计的多个关系抽取模型,将这些模型联合在一起进行实体关系抽取,进而选择出样本较优的实体关系。

【技术实现步骤摘要】
一种基于深度学习的实体关系抽取方法
本专利技术涉及实体关系抽取领域,具体涉及一种基于深度学习的实体关系抽取方法。
技术介绍
实体关系抽取的任务是对文本中的实体对进行语义识别,根据其在文本和语句中的含义,判断他们之间是否具有关系或者属于什么类型的关系。早期的实体关系抽取主要采用模式匹配的方法。基于规则的方法分析文本中的一些隐含的特征,由参与的专业人员手动定义出规则和模式,利用关系模式来发现和匹配其中的关系。基于规则的方法需要在专业领域拥有专业知识的人来人工编写规则,需要大量的人力投入。在将抽取规则应用于别的领域时候,往往受到限制,具有很强的专业性和局限性。这种早期主要依赖的基于规则的研究方法,在一些专业领域和范围内获得了较好的成果。随着机器学习的发展与应用,实体关系抽取有了新的研究方法,利用机器学习来进行实体关系抽取的研究方法得到了广泛的关注。机器学习的方法在实体关系抽取中应用非常广泛,无监督、弱监督和有监督的机器学习方法都在实体关系抽取中得到了相应的研究,基于无监督、弱监督的学习方法不需要太多的人工标注好的样本数据,在训练学习中减少了对样本数据标签的依赖,但是训练过程容易被噪声干扰,降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法,基于有监督学习的抽取方法在多个领域得到了研究和应用,也取得较好的抽取效果。有监督学习的实体关系抽取方法相对需要更多的精力投入,抽取模型会依赖于较多的已经标注好的数据集,需要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行,而得到这些标注数据较为费时费力,所以有监督学习的一般前提是要有足够的人工劳动量的投入。基于机器学习的实体关系抽取方法大多需要从文本中提取特征,进行文本词汇分析、语法分析等,需要借助语言知识和自然语言处理工具来研究实体关系的自动抽取。很多专业领域的专业术语、名词分析和标注数据还需要具有丰富专业知识的人员参与,一些基于语言特征的机器学习方法并不能简单地应用到其他领域。
技术实现思路
本专利技术的目的是针对现有技术存在的不足,提供一种基于深度学习的实体关系抽取方法。为实现上述目的,本专利技术提供了一种基于深度学习的实体关系抽取方法,包括:采用CNN神经网络从输入样本中提取特征并学习,以获取该模式下的第一候选关系类型;采用BLSTM神经网络从输入样本中提取特征并学习,以获取该模式下的第二候选关系类型;采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,并将其学到的信息依次分别输入至BLSTM神经网络和CNN神经网络进一步学习,以分别获取第三候选关系类型和第四候选关系类型;采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,学习后的特征进行拼接,以获取第五候选关系类型;对第一候选关系类型、第二候选关系类型、第三候选关系类型、第四候选关系类型和第五候选关系类型进行评定,选取分数最高的候选关系类型作为该样本的最终关系分类结果。进一步的,所述分数最高的候选关系类型如多于一种,则从所有分数最高的候选关系类型中随机选择一种类型作为分类的结果。进一步的,所述CNN神经网络采用多个尺寸的滑动窗口来提取局部特征,并将学习到的特征进行最大池化进行采样,然后通过全连接层、softmax操作以及反向传播等计算流程对实体关系抽取模型进行训练。进一步的,所述输入样本以双向的LSTM语句输入,在实体关系抽取模型中,样本数据按照单词在句子中原本的顺序输入到了LSTM神经单元中,每个时刻的状态ht依赖于之前时刻的状态以及当前时刻的状态,ht由正向和反向两种顺序在BLSTM的t时刻的输出拼接而成,具体如下:其中,为句子以正向顺序输入到BLSTM在t时刻的输出,为反向顺序时的输出,以让BLSTM节点同时对前向和后向的序列进行特征学习。进一步的,从输入样本中提取特征包括词向量特征、位置特征、局部特征和序列特征。有益效果:本专利技术利用文本语句的局部性和序列性等特征与文本关系类别之间的联系,通过组合卷积神经网络和循环神经网络,发挥两类神经网络结构的特点,并联合多个模型进行实体关系抽取,加强模型对文本各个方面特征的自主学习能力;根据两类神经网络的特点,设计了将两类神经网络并联、串联在一起的多个组合模型,单一神经网络模型和串联、并联组合模型的网络结构形式各不相同,学习能力可能会侧重于某个方面,单个模型学习到的特征较为单一,将多个不同结构的神经网络模型联合起来,从不同角度去学习特征,获得更加充分全面的学习能力。除了采用卷积神经网络和循环神经网络分别进行实体关系抽取外,还在多种不同结构的神经网络的基础上,将卷积神经网络和循环神经网络组合在一起,分别使用了串联、并联的方式对样本进行自动抽取。最后联合了多个基于深度学习的模型,将利用之前设计的多个关系抽取模型,将这些模型联合在一起进行实体关系抽取,进而选择出样本较优的实体关系。采用神经单元模拟人脑学习的过程,通过组建卷积神经网络、循环神经网络等结构,完成关系的自动抽取。相比基于传统机器学习的方法,基于深度学习的实体关系抽取方法不需要手动提取特征,深度学习算法具有自动学习算法的能力。附图说明图1是多模型联合的实体关系抽取流程示意图;图2是CNN串联BLSTM的串联组合模型示意图;图3是BLSTM串联CNN的串联组合模型示意图;图4是CNN串联BLSTM的并联组合模型示意图。具体实施方式下面结合附图和具体实施例,进一步阐明本专利技术,本实施例在以本专利技术技术方案为前提下进行实施,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。如图1至4所示,本专利技术实施例提供了一种基于深度学习的实体关系抽取方法,包括:采用CNN神经网络从输入样本中提取特征并学习,以获取该模式下的第一候选关系类型。考虑多窗口和实体对位置的CNN神经网络,位置特征采用个单词到实体对e1和e2的距离,句子单词特征和位置特征拼接在一起的样本输入向量。输入层输入到模型中,在卷积层采用多个尺寸的滑动窗口来提取局部特征,并将学习到的特征进行最大池化进行采样,之后通过全连接层、softmax操作以及反向传播等计算流程对实体关系抽取模型进行训练。采用BLSTM神经网络从输入样本中提取特征并学习,以获取该模式下的第二候选关系类型。使用双向的LSTM(BidirectionalLongShort-TermMemory,BLSTM)将样本语句输入到模型,在实体关系抽取模型中,样本数据按照单词在句子中原本的顺序输入到了LSTM神经单元中,每个时刻的状态ht依赖于之前时刻的状态以及当前时刻的状态,具体如下:其中,为句子以正向顺序输入到BLSTM在t时刻的输出,为反向顺序时的输出,ht由正向和反向两种顺序在BLSTM的t时刻的输出拼接而成,让BLSTM节点同时对前向和后向的序列进行特征学习。Attention机制对样本输入的不同部分给以不同的注意力,使得模型学习如何去关注样本中更有价值的部分,在本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的实体关系抽取方法,其特征在于,包括:/n采用CNN神经网络从输入样本中提取特征并学习,以获取该模式下的第一候选关系类型;/n采用BLSTM神经网络从输入样本中提取特征并学习,以获取该模式下的第二候选关系类型;/n采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,并将其学到的信息依次分别输入至BLSTM神经网络和CNN神经网络进一步学习,以分别获取第三候选关系类型和第四候选关系类型;/n采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,学习后的特征进行拼接,以获取第五候选关系类型;/n对第一候选关系类型、第二候选关系类型、第三候选关系类型、第四候选关系类型和第五候选关系类型进行评定,选取分数最高的候选关系类型作为该样本的最终关系分类结果。/n

【技术特征摘要】
1.一种基于深度学习的实体关系抽取方法,其特征在于,包括:
采用CNN神经网络从输入样本中提取特征并学习,以获取该模式下的第一候选关系类型;
采用BLSTM神经网络从输入样本中提取特征并学习,以获取该模式下的第二候选关系类型;
采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,并将其学到的信息依次分别输入至BLSTM神经网络和CNN神经网络进一步学习,以分别获取第三候选关系类型和第四候选关系类型;
采用CNN神经网络和BLSTM神经网络分别从输入样本中提取特征并学习,学习后的特征进行拼接,以获取第五候选关系类型;
对第一候选关系类型、第二候选关系类型、第三候选关系类型、第四候选关系类型和第五候选关系类型进行评定,选取分数最高的候选关系类型作为该样本的最终关系分类结果。


2.根据权利要求1所述的基于深度学习的实体关系抽取方法,其特征在于,所述分数最高的候选关系类型如多于一种,则从所有分数最高的候选关系类型中随机选择一种类型作为分类的结果。

【专利技术属性】
技术研发人员:路松峰
申请(专利权)人:南京搜文信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1