双向GRU关系抽取数据处理方法、系统、终端、介质技术方案

技术编号:28475782 阅读:246 留言:0更新日期:2021-05-15 21:44
本发明专利技术属于关系抽取技术领域,公开了一种双向GRU关系抽取数据处理方法、系统、终端、介质,对基准数据集SemEval

【技术实现步骤摘要】
双向GRU关系抽取数据处理方法、系统、终端、介质


[0001]本专利技术属于关系抽取
,尤其涉及一种双向GRU关系抽取数据处理方法、系统、终端、介质。

技术介绍

[0002]目前,关系抽取在自然语言处理领域占有重要的地位,它是问答系统、信息抽取、知识图谱等自然语言处理的核心任务和不可缺少的环节,同时关系抽取也是近年来的一个研究热点。关系抽取的任务是预测文本中两个标记实体之间的关系类型和方向。
[0003]基于深度学习的关系抽取方法主要是基于CNN,RNN网络来获取句子中的上下文信息,Zeng等人提出了一种使用深度卷积神经网络的模型来提取句子中的特征,Zhang等人提出了使用RNN来学习实体与实体间的长距离依赖性。CNN的目的是捕捉目标的局部和连续的上下文内容,而RNN则通过存储单元积累输入句子中的上下文信息。最近的研究中通常使用注意力机制来提升模型的性能,例如用于关系分类的基于注意力的双向长期短期记忆网络、通过基于注意力机制的分层递归神经网络进行语义关系分类等。
[0004]目前,基于注意力的神经网络模型致力于分辨句子的关键语义部分,并在许多NLP任务中取得了最新成果。SDP

LSTM使用长期短期记忆(LSTM)沿最短依赖路径(SDP)捕获特征,该模型是用于通过排名进行分类的卷积神经网络,并使用具有成对排名的损失函数进行训练。Xu等人提出的深度循环神经网络(DRNNs)模型将不相关的词从最短依赖路径中剔除,以此达到提升模型性能的目的,并且在模型中还使用了其它例如单词词性标签(pos)、上位词、同义词替换等额外特征。但与此同时,在关系分类的任务中,这种具有注意力机制的模型并没有充分利用数据集中的有关系表达的信息,而这些信息对实体分类任务具有提示作用,另外,最短依赖路径(SDP)、词性标签(pos)、上位词、同义词等特征都是依靠相关的NLP工具生成的语言特征,它们大多是有效的,有助于模型找到关键特征,但同时会导致模型受到工具产生的错误影响,并大大增加模型的计算工作量。
[0005]通过上述分析,现有技术存在的问题及缺陷为:在关系分类的任务中,现有具有注意力机制的模型并没有充分利用数据集中的有关系表达的信息;同时,现有模型使用其他处理工具会导致模型受到工具产生的错误影响,并大大增加模型的计算工作量,提高了模型的计算时间;并且传统的词向量模型并不能准确的表现出句中出现的大量的一词多义;在提取文本信息的网络层中,现有的模型使用的LSTM网络参数量过多,在一定程度上加大了模型过拟合的风险,并且增加了模型的计算量,致使计算时间变长。
[0006]解决以上问题及缺陷的难度为:需要对模型的注意力机制进行优化及调整从而在不使用任何工具的情况下达到充分利用文本中有关系表达单词以及实体词的效果,以提高模型的性能,并且避免使用工具从而对模型带来错误累积;需要使用具有一词多义能力的词向量模型;在文本提取的网络层中,需要使用参数量更少的、更快速的、同性能的网络,以提高模型的运行效率。
[0007]解决以上问题及缺陷的意义为:关系抽取任务是知识图谱构建的不可或缺的重要
步骤,关系抽取模型的研究以及优化具有十分重要的应用前景以及理论意义,可以为自然语言处理领域的多种应用提供更先进的支持。

技术实现思路

[0008]针对现有技术存在的问题,本专利技术提供了一种双向GRU关系抽取数据处理方法、系统、终端、介质,具体涉及一种基于关键词注意力的双向GRU关系抽取数据处理方法。
[0009]本专利技术是这样实现的,一种基于关键词注意力的双向GRU关系抽取数据处理方法,包括以下步骤:
[0010]步骤一,对基准数据集进行预处理;
[0011]步骤二,对步骤一预处理后的语料进行词向量化;
[0012]步骤三,通过多头注意力机制对步骤二的词向量进行初步去噪处理;
[0013]步骤四,使用Bi

GRU网络层对步骤三处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;
[0014]步骤五,将步骤四的隐藏层向量作为输入,传递至关键词注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出关键词注意力权重;
[0015]步骤六,将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果。
[0016]进一步,所述步骤一预处理包括:
[0017]将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为UTF

8编码;去除句子中的标点符号以及重复句子和符号;使用NLTK对数据集中的文本进行分词处理;
[0018]所述步骤二进行词向量化包括:将分好词的语料使用预训练的EMLo模型进行词向量的转化;
[0019]EMLo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量,其中输入句子用{w1,w2,...,w
n
}表示,表示每个词与实体对的相对位置的向量;
[0020]采用维度嵌入d
w
从语言模型ELMo词嵌入预训练模型,ELMo模型根据上下文推断出每个词对应的词向量;对于多义词在前后词的上下文中理解;
[0021]所述预训练模型的训练方法采用随机梯度下降法训练,关键词注意力机制使用交叉损失熵进行计算,所述损失函数的定义如以下公式所示:
[0022][0023]其中,|D|是训练数据集的大小,(S
(i)
,y
(i)
)是数据集中的第i个样本,采用AdaDelta优化器来最小化loss函数计算参数;
[0024]在损失函数中加入L2正则化以防止过拟合,λ1,λ2是正则化的超参数;第二个正则化器试图强制模型处理真正重要的单词,并返回稀疏的权重分布;最终目标函数如以下等式所示:
[0025][0026]进一步,所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵;
[0027]所述多头注意力机制包括:给定密钥K、查询Q和值V作为输入,相当于词嵌入向量{x1,x2,...,x
n
},输出结果是一个具有输入句子上下文信息的特征序列;其中,关注模块将执行关注h次,计算过程如以下公式所示:
[0028]MultiHead(Q,K,V)=W
M
Concat[head1;...;head
r
];
[0029][0030][0031]其中是线性变换的可学习参数,W
M
是按比例计算和串联时按比例放缩点积注意力的输出,W
iQ
,W
iK
,W
iV
分别表示第i个头的查询、键和值。
[0032]进一步,所述步骤四Bi

GRU网络层用于获取多头自注意层输出序列的上下文内信息;在信息提取的任务中,RNN是使用最多的模型;LSTM相对于RNN引入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述基于关键词注意力的双向GRU关系抽取数据处理方法包括以下步骤:步骤一,对基准数据集进行预处理;步骤二,对步骤一预处理后的语料进行词向量化;步骤三,通过多头注意力机制对步骤二的词向量进行初步去噪处理;步骤四,使用Bi

GRU网络层对步骤三处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;步骤五,将步骤四的隐藏层向量作为输入,传递至关键词注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出关键词注意力权重;步骤六,将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果。2.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤一预处理包括:将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为UTF

8编码;去除句子中的标点符号以及重复句子和符号;使用NLTK对数据集中的文本进行分词处理;所述步骤二进行词向量化包括:将分好词的语料使用预训练的EMLo模型进行词向量的转化;EMLo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量,其中输入句子用{w1,w2,...,w
n
}表示,表示每个词与实体对的相对位置的向量;采用d
w
维的从ELMo词嵌入预训练模型得到的词向量,ELMo模型根据上下文推断出每个词对应的词向量;对于多义词加入了前后词的上下文理解;所述预训练模型的训练方法采用随机梯度下降法训练,关键词注意力机制使用交叉损失熵进行计算,所述损失函数的定义如以下公式所示:其中,|D|是训练数据集的大小,(S
(i)
,y
(i)
)是数据集中的第i个样本,采用AdaDelta优化器来最小化loss函数计算参数;在损失函数中加入L2正则化以防止过拟合,λ1,λ2是正则化的超参数;第二个正则化器试图强制模型处理真正重要的单词,并返回稀疏的权重分布;最终目标函数如以下等式所示:3.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵;所述多头注意力机制包括:给定密钥K、查询Q和值V作为输入,相当于词嵌入向量{x1,x2,...,x
n
},输出结果是一个具有输入句子上下文信息的特征序列;其中,关注模块将执行关注h次,计算过程如以下公式所示:
MultiHead(Q,K,V)=W
M
Concat[head1;...;head
r
];head
i
=Attention(W
iQ
Q,W
iK
K,W
iV
V);其中,是线性变换的可学习参数,WM是按比例计算和串联时按比例放缩点积注意力的输出,W
iQ
,W
iK
,W
iV
分别表示第i个头的查询、键和值。4.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤四Bi

GRU网络层用于获取多头自注意层输出序列的上下文内信息;在信息提取的任务中,RNN是使用最多的模型;LSTM相对于RNN引入了长期记忆和门结构,缓解RNN长期去依赖性的问题,但同时也增加模型的计算量;而GRU则进一步优化LSTM,只保留new gate和reset gate两个门操作;将GRU单元对m
i
的处理记为GRU(m
i
),获得用于计算上下文化单词表示的等式如以下公式所示:式所示:式所示:Bi

GRU的输入M是多头自注意层的输出,逐级输入到网络中;将每一时间步中的前向GRU网络隐藏状态与后向GRU网络隐藏状态进行并联,其中d
h
为GRU网络单元隐藏状态的维度,用{h1,h2,...,h
n
}表示每一个词的隐藏状态向量,并用箭头表示方向。5.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤五关键词注意力机制用于对隐藏层向量进行软选择,为一组标量的线性组合,权值用来表示模型对句子中某个词的关注程度,取值在0到1之间;为每个词引入一个状态变量z,当z为0时,表示对应的词与关系分类无关,如果z为1,则表示对应的词是句子中关系表达所需的词;每个句子都有对应的二元状态变量序列z;隐藏状态的期望值N为对应词被选中的概率,关键词注意力权重计算方法如以下公式所示:引入CRF来计算隐藏序列的权重序列H={h1,h2,...,h
n
},推导出p(z
i
=1|H),H代表输入序列,h
i
代表第i个词的GRU的隐藏输出;...

【专利技术属性】
技术研发人员:陈建峡陈煜张杰刘畅刘琦
申请(专利权)人:湖北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1