当前位置: 首页 > 专利查询>吉林大学专利>正文

一种基于注意力引导图LSTM关系提取方法及装置制造方法及图纸

技术编号:30367113 阅读:37 留言:0更新日期:2021-10-16 17:38
本发明专利技术公开了一种基于注意力引导图LSTM关系提取方法及装置,该方法包括:将需要进行关系抽取的文本进行预处理操作,得到原始邻接矩阵和包含上下文信息的词向量;将原始邻接矩阵转换成完全连通的边加权图邻接矩阵;将完全连通的边加权图邻接矩阵和包含上下文信息的词向量,输入图结构LSTM神经网络模型中,进行循环状态转换,得到实体隐藏状态数据;将实体隐藏状态数据输入逻辑回归分类器,输出待关系抽取文本的关系类别标签。首先,该提取方法保持了原始图结构,不会丢失任何相关信息。其次,通过将信息从父级上传下移,可以轻松的合并同级信息。最后,信息交换允许更多并行化执行,可以有效地提升计算速率。以有效地提升计算速率。以有效地提升计算速率。

【技术实现步骤摘要】
一种基于注意力引导图LSTM关系提取方法及装置


[0001]本专利技术涉及自然语言处理
,特别涉及一种基于注意力引导图LSTM关系提取方法及装置。

技术介绍

[0002]现有关系抽取相关模型主要被分成基于序列以及基于依存关系这两种模型。当关系抽取模型是基于序列时是指该模型只是在单词序列上运行,使用卷积神经网络或循环神经网络把句子文本序列转化编码成为带有语境化或者上下文信息的特征。基于依存关系的模型的主要思想是将句子文本生成的依存树应用到模型中,依存树可以更好的表达句子中单词之间的句法依存关系,模型对其学习也能获取到更优的句子分布式表示。依存句法首先被提出是为了通过构建树形结构来描述出词语间存在的依存关系。
[0003]在当下的研究中,依存句法分析在自然语言处理领域可谓是用处颇广,它的主要作用是分析输入文本的句法结构,获取到与之对应的依存关系结构树。由于通过依存树获得的关键词的距离比直接进行处理的关键词的物理距离近的多,因此依存句法结构树在自然语言领域中起到了至关重要的作用。经过研究发现,基于序列的模型往往无法从词向量序列中获取到长期的句法关系,同时这些句法关系仅从表面形式是难以理解的,因而基于依存关系的模型在性能表现上通常会更加优异。然而,一整棵依存结构树中总是包含着一些对关系抽取任务无用的信息,那么如何屏蔽掉这些无关信息,很多研究者都为此提出了基于规则的剪枝策略。应用这种基于规则的硬性剪枝策略对依存树进行修剪,会产生更符合要求的子树结构,在将深度学习神经网络应用到上述产生的子树结构上,获取到句子文本中给定实体对之间的关系类别标签。
[0004]上述这种基于规则的剪枝策略会直接对依存树直接进行的硬性剪枝操作。虽然这种类似于一刀切的剪枝策略可以很好的获取到于关系抽取任务有效的子树结构,但也无法避免的会剪去一些有用的相关信息。这些被剪掉的句法信息只是因为不在规则中,其权重部分就被赋值为0,去除了其全部的作用,这样做会在一定程度上降低对依存树中的句法信息的利用率,对最后的关系抽取结果产生影响。
[0005]现有对关系抽取任务的研究大多集中在单个句子的2元关系,虽然取得了足够优秀的成果,但单个句子有时无法提供丰富的歧义语境,导致在一些例如生物医药等高价值领域的表现不够出色。
[0006]图结构LSTM的文档图是由包含依存边和相邻单词之间的连接的输入句子构造而成的。要计算每个单词的隐藏状态编码,需要将文档图划分为两个有向无环图(DAG),一个有项无环图(DAG)包含从左到右的线性链,以及其前向依存关系。另一个有项无环图(DAG)包含从右到左的线性链,以及其向后的依存关系。然后,两个独立的LSTM分别用于每个单向DAG。最后,对于每个单词,把两个方向的隐藏状态进行连接就可以得到最终状态。
[0007]但是,双向DAG LSTM模型有几个局限性。首先,转换图形时可能因为将文档图划分为两个独立的有向无环图(DAG)而丢失重要信息。其次,在两个DAG上都使用LSTM,仅可以为
每个单词合并其祖先和后代的信息。兄弟信息也可能很重要,但其并不包括在内。解决上述问题的一种潜在解决方案是对整个图进行建模,学习其表示而不将其分成两个DAG。但由于存在循环,Tree

LSTM的扩展无法实现此目标。
[0008]因此,在现有的关系抽取模型和图结构LSTM的基础上,如何提供一种基于依存树的注意引导图LSTM模型,以在有效利用依存树中句法关系的同时又可以忽略其中无用的信息,成为本领域技术人员亟需解决的问题。

技术实现思路

[0009]鉴于上述问题,本专利技术提出了一种至少解决上述部分技术问题的基于注意力引导图LSTM关系提取方法及装置,该方法及装置可极大程度增加对依存树中所包含的句法信息的利用率。
[0010]本专利技术实施例提供一种基于注意力引导图LSTM关系提取方法,包括:
[0011]将需要进行关系抽取的文本进行预处理操作,得到原始邻接矩阵和包含上下文信息的词向量;
[0012]将所述原始邻接矩阵转换成完全连通的边加权图邻接矩阵;
[0013]将所述完全连通的边加权图邻接矩阵和包含上下文信息的词向量,输入图结构LSTM神经网络模型中,进行循环状态转换,得到实体隐藏状态数据;
[0014]将所述实体隐藏状态数据输入逻辑回归分类器,输出所述文本的关系类别标签。
[0015]进一步地,所述将需要进行关系抽取的文本进行预处理操作,包括:
[0016]将需要进行关系抽取的文本进行依存句法分析,得到原始依存树;
[0017]根据所述原始依存树,获取原始依存矩阵;
[0018]根据所述原始依存矩阵,获取每个单词的词向量;
[0019]将所述词向量进行正向编码和反向编码,得到包含上下文信息的词向量。
[0020]进一步地,所述将词向量进行正向编码和反向编码,得到包含上下文信息的词向量,具体包括:
[0021]将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:
[0022][0023][0024][0025][0026][0027][0028]其中,σ表示sigmoid激活函数,x
t
表示时间t时刻的输入向量,h
t
‑1表示隐藏状态,c
t
‑1表示当前时刻的信息流,表示x
t
在不同门机制上的权重矩阵,表示h
t
在不同门机制上的权重矩阵,表示c
t
在不同门机制上的权重矩阵,b
x
,x∈{i,f,g,o}表示偏差量,i,f,g,o表示输入向量;
[0029]经过所述对LSTM隐藏层进行计算,得到t时刻所述词向量从左到右的正向输出向量表示和从右到左的反向输出向量表示
[0030]根据所述词向量正向输出向量表示和反向输出向量表示得到所述词向量在t时刻最终向量h
t
表示如下:
[0031][0032]根据所述词向量最终向量表示,得到包含上下文信息的词向量。
[0033]进一步地,将所述原始邻接矩阵转换成完全连通的边加权图邻接矩阵,包括:
[0034]通过多头自注意力机制将所述原始邻接矩阵转换成完全连通的边加权图邻接矩阵,具体包括:
[0035]输入所述原始邻接矩阵,建立注意力引导层模型,计算每组查询Query和键值Key

Value:
[0036]Q=XW
Q
[0037]K=XW
K
[0038]V=XW
V
[0039]其中,Q表示Query,K表示Key,V表示Value,X表示输入序列,W
Q
、W
K
和W
V
均表示权重矩阵;
[0040]计算每组查询Query和键值Key

Value相对应的权重值:
[0041][0042]其中,表示第t个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力引导图LSTM关系提取方法,其特征在于,包括:将需要进行关系抽取的文本进行预处理操作,得到原始邻接矩阵和包含上下文信息的词向量;将所述原始邻接矩阵转换成完全连通的边加权图邻接矩阵;将所述完全连通的边加权图邻接矩阵和包含上下文信息的词向量,输入图结构LSTM神经网络模型中,进行循环状态转换,得到实体隐藏状态数据;将所述实体隐藏状态数据输入逻辑回归分类器,输出所述文本的关系类别标签。2.如权利要求1所述的一种基于注意力引导图LSTM关系提取方法,其特征在于,所述将需要进行关系抽取的文本进行预处理操作,包括:将需要进行关系抽取的文本进行依存句法分析,得到原始依存树;根据所述原始依存树,获取原始依存矩阵;根据所述原始依存矩阵,获取每个单词的词向量;将所述词向量进行正向编码和反向编码,得到包含上下文信息的词向量。3.如权利要求2所述的一种基于注意力引导图LSTM关系提取方法,其特征在于,所述将词向量进行正向编码和反向编码,得到包含上下文信息的词向量,具体包括:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:将所述词向量输入双层LSTM神经网络模型中,对LSTM隐藏层进行计算:其中,σ表示sigmoid激活函数,x
t
表示时间t时刻的输入向量,h
t
‑1表示隐藏状态,c
t
‑1表示当前时刻的信息流,表示x
t
在不同门机制上的权重矩阵,表示h
t
在不同门机制上的权重矩阵,表示c
t
在不同门机制上的权重矩阵,b
x
,x∈{i,f,g,o}表示偏差量,i,f,g,o表示输入向量;经过所述对LSTM隐藏层进行计算,得到t时刻所述词向量从左到右的正向输出向量表示和从右到左的反向输出向量表示根据所述词向量正向输出向量表示和反向输出向量表示得到所述词向量在t时刻最终向量h
t
表示如下:根据所述词向量最终向量表示,得到包含上下文信息的词向量。4.如权利要求1所述的一种基于注意力引导图LSTM关系提取方法,其特征在于,将所述
原始邻接矩阵转换成完全连通的边加权图邻接矩阵,包括:通过多头自注意力机制将所述原始邻接矩阵转换成完全连通的边加权图邻接矩阵,具体包括:输入所述原始邻接矩阵,建立注意力引导层模型,计算每组查询Query和键值Key

Value:Q=XW
Q
K=XW
K
V=XW
V
其中,Q表示Query,K表示Key,V表示Value,X表示输入序列,W
Q
、W
K
和W
V
均表示权重矩阵;计算每组查询Query和键值Key

Value相对应的权重值:其中,表示第t个头注意力得到的邻接矩阵,为Q对应的参数矩阵,为K对应的参数矩阵,Q、K和V均表示注意力引导层模型中L

【专利技术属性】
技术研发人员:刘露李春磊彭涛包铁
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1