一种LSTM端到端关系提取方法及装置制造方法及图纸

技术编号:38253242 阅读:10 留言:0更新日期:2023-07-27 10:18
本发明专利技术涉及计算机自然语言处理领域,具体提供了一种LSTM端到端关系提取方法及装置,具有如下步骤:S1、关系编码器为句子每个单词生成一个固定大小的向量表示;S2、对于每个单词、词性、依存关系、实体标签分别映射;S3、将位置词性嵌入与单词嵌入拼接起来,S4、将实体检测视为一个序列标记任务;S5、树结构长短时记忆网络在依赖层;S6、将依赖层堆叠在序列层之上,将单词序列和依赖树结构信息合并到输出中;S7、在解码过程中,使用检测到的实体的最后一个单词的所有可能组合,即BILOU方案中带有L或U标签的单词,增量地构建候选关系。与现有技术相比,本发明专利技术在实体关系联合抽取任务中利用单词词性标记向量特征,依存关系特征向量,实体标签方法提升实体关系识别正确率。标签方法提升实体关系识别正确率。标签方法提升实体关系识别正确率。

【技术实现步骤摘要】
一种LSTM端到端关系提取方法及装置


[0001]本专利技术涉及计算机自然语言处理领域,具体提供一种LSTM端到端关系提取方法及装置。

技术介绍

[0002]信息抽取旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。关系抽取是其中的重要子任务之一,主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。
[0003]实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效果。方法,而且还可以通过其中的偏旁部首与结构成分来推断词组的词性及词意。
[0004]最近,神经网络方法在关系抽取任务中逐渐流行起来。比如使用递归神经网络来解决实体关系抽取问题。该方法对句子进行了句法解析,能够有效地考虑句子的句法结构信息,但同时该方法无法很好地考虑两个实体在句子中的位置和语义信息。再比如利用词向量和词的位置向量作为卷积神经网络的输入,引入了实体和其他词的距离信息,可以很好的把句子中实体的信息考虑到关系抽取中。随后,又有学者提出了一种新的损失函数的卷积神经网络,采用了新的损失函数,能够有效提高不同实体关系类型的区分度。另一方面。在远程监督上采用分段最大池化的卷积神经网络,通过分段最大池化层来自动学习相关特征,提出将卷积神经网络和注意力机制结合起来使用,使用图卷积网络作为句子编码器,并使用句子级别的注意机制。
[0005]现有的用于关系抽取的神经网络模型主要存在以下两方面的问题:(1)尽管LSTM网络等序列模型采用门机制来控制每个单词对句子最终表示的相对影响,这些控制往往无法覆盖整个语句;(2)大多数现有模型没有对序列中实体的位置建模,或者只建模了局部区域的位置信息。

技术实现思路

[0006]本专利技术是针对上述现有技术的不足,提供一种实用性强的LSTM端到端关系提取方法。
[0007]本专利技术进一步的技术任务是提供一种设计合理,安全适用的LSTM端到端关系提取装置。
[0008]本专利技术解决其技术问题所采用的技术方案是:
[0009]一种LSTM端到端关系提取方法,具有如下步骤:
[0010]S1、关系编码器为句子每个单词生成一个固定大小的向量表示;
[0011]S2、对于每个单词、词性、依存关系、实体标签分别映射为v
(
p
)
,v
(d)
和v
(e)
,维度为n
p
、n
d
和n
e

[0012]S3、将位置词性嵌入与单词嵌入拼接起来(v
(w)
,v
(p)
)。
[0013]S4、将实体检测视为一个序列标记任务;
[0014]S5、树结构长短时记忆网络在依赖层,表示依赖树中两个目标词对之间的关系,并负责关系特定的表示;
[0015]S6、将依赖层堆叠在序列层之上,将单词序列和依赖树结构信息合并到输出中;
[0016]S7、在解码过程中,使用检测到的实体的最后一个单词的所有可能组合,即BILOU方案中带有L或U标签的单词,增量地构建候选关系。
[0017]进一步的,在步骤S1中,首先,句子的每个标记x={x1,x2,...,x
n
}使用矩阵映射到w维嵌入向量W∈R
|V|*w
,|V|是单词表的大小,使用200维Glove嵌入记为v
(w)
,维度为n
w

[0018]进一步的,在步骤S3中,将递归神经网络应用于标记嵌入,句子长度n因句子而异,递归神经网络提供了一种容纳各种大小输入的方法,将n个向量的序列映射到一个固定大小的输出向量h
s
∈R
h
,将输出向量h
s
作为句子中目标实体之间关系的表示,使用之前成功应用于信息提取的递归神经网络的变体

长短时记忆网络,句子编码器定义如下:
[0019]{h1,

,h
n
}=LSTM({x1,

,x
n
});
[0020]第t个单词的LSTM单元接收单词和词性特征向量的拼接作为其输入向量:将每个单词对应的两个方向LSTM单位的隐藏状态向量连接起来作为输出向量,并将传给后续层。
[0021]进一步的,在步骤S4中,使用一种编码方案BILOU为每个单词分配一个实体标签,其中每个实体标签表示实体类型和单词在实体中的位置,将B

PER和L

PER分配给Sidney Yates中的每个单词,以将该短语表示为PER实体类型;
[0022]在序列层上执行实体检测,使用一个两层的神经网络,包含一个维隐藏层h
{(e)}
和一个softmax输出层进行实体检测;
[0023][0024][0025]其中,W为权重矩阵,b为偏置向量;
[0026]以一种贪婪的、从左到右的方式为单词分配实体标签,在解码过程中,使用一个单词的预测标签来预测下一个单词的标签,从而考虑标签相关性,上面的神经网络接收序列层对应的输出与上一时刻单词预测标签向量的拼接。
[0027]进一步的,在步骤S5中,采用双向树形结构的LSTM,通过捕获目标词对周围的依赖结构表示候选关系,这种双向结构不仅向每个节点传播来自叶子的信息,还向每个节点传播来自根的信息;
[0028]自顶向下的LSTM从树的顶部向这种近叶节点发送信息与标准自底向上LSTM不同,提出了一种新的树结构LSTM,为同一类型的子对象共享权重矩阵U,并且允许孩子节点数目可变。
[0029]进一步的,使用下列公式计算在有C(t)个子节点的第t个LSTM单元中的维向
量:
[0030][0031][0032][0033][0034]c
t
=i
t

u
t
+∑
{l∈C(t)}
f
{tl}

c
{tl}
[0035]h
t
=o
t

tanh(c
t
)
[0036]m(
·
)是一个类型映射函数。
[0037]进一步的,将依赖层堆叠在序列层之上,将单词序列和依赖树结构信息合并到输出中,第t个单词的依赖层LSTM单元接收作为输入在序本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种LSTM端到端关系提取方法,其特征在于,具有如下步骤:S1、关系编码器为句子每个单词生成一个固定大小的向量表示;S2、对于每个单词、词性、依存关系、实体标签分别映射为v
(p)
,v
(d)
和v
(e)
,维度为n
p
、n
d
和n
e
;S3、将位置词性嵌入与单词嵌入拼接起来(v
(w)
,v
(p)
);S4、将实体检测视为一个序列标记任务;S5、树结构长短时记忆网络在依赖层,表示依赖树中两个目标词对之间的关系,并负责关系特定的表示;S6、将依赖层堆叠在序列层之上,将单词序列和依赖树结构信息合并到输出中;S7、在解码过程中,使用检测到的实体的最后一个单词的所有可能组合,即BILOU方案中带有L或U标签的单词,增量地构建候选关系。2.根据权利要求1所述的一种LSTM端到端关系提取方法,其特征在于,在步骤S1中,首先,句子的每个标记x={x1,x2,...,x
n
}使用矩阵映射到w维嵌入向量w∈R
|v|*w
,|V|是单词表的大小,使用200维Glove嵌入记为v
(w)
,维度为n
w
。3.根据权利要求2所述的一种LSTM端到端关系提取方法,其特征在于,在步骤S3中,将递归神经网络应用于标记嵌入,句子长度n因句子而异,递归神经网络提供了一种容纳各种大小输入的方法,将n个向量的序列映射到一个固定大小的输出向量h
s
∈R
h
,将输出向量h
s
作为句子中目标实体之间关系的表示,使用之前成功应用于信息提取的递归神经网络的变体

长短时记忆网络,句子编码器定义如下:{h1,...,h
n
}=LSTM({x1,...,x
n
});第t个单词的LSTM单元接收单词和词性特征向量的拼接作为其输入向量:将每个单词对应的两个方向LSTM单位的隐藏状态向量连接起来作为输出向量,并将传给后续层。4.根据权利要求3所述的一种LSTM端到端关系提取方法,其特征在于,在步骤S4中,使用一种编码方案BILOU为每个单词分配一个实体标签,其中每个实体标签表示实体类型和单词在实体中的位置,将B

PER和L

PER分配给Sidney Yates中的每个单词,以将该短语表示为PER实体类型;在序列层上执行实体检测,使用一个两层的神经网络,包含一个维隐藏层h
{(
e
)}
和一个softmax输出层进行实体检测;一个softmax输出层进行实体检测;其中,W为权重矩阵,b为偏置向量;以一种贪婪的、从左到右的方式为单词分配实体标签,在解码过程中,使用一个单词的预测标签来预测下一个单词的标签,从而考虑标签相关性,上面的神经网络接收序列层对应的输出与上一时刻单词预测标签向量的拼接。5.根据权利要求4所述的一种LSTM端到端关系提取方法,其特征在于,在步骤S5中,采用双向树形结构的LSTM,通过捕获目标词对周围的依赖结构表示候选关系,这种双向结构不仅向每个节点传播来自叶子的信息,还向每个节点传播来自根的信息;
自顶向下的LSTM从树的顶部向这种近叶节点发送信息与标准自底向上LSTM不同,提出了一种新的树结构LSTM,为同一类型的子对象共享权重矩阵U,并且允许孩子节点数目可变。6.根据权利要求5所述的一种LSTM端到端关系提取方法,其特征在于,使用下列公式计算在有C(t)个子...

【专利技术属性】
技术研发人员:王光耀
申请(专利权)人:浪潮通信技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1