【技术实现步骤摘要】
双向GRU关系抽取数据处理方法、系统、终端、介质
[0001]本专利技术属于关系抽取
,尤其涉及一种双向GRU关系抽取数据处理方法、系统、终端、介质。
技术介绍
[0002]目前,关系抽取在自然语言处理领域占有重要的地位,它是问答系统、信息抽取、知识图谱等自然语言处理的核心任务和不可缺少的环节,同时关系抽取也是近年来的一个研究热点。关系抽取的任务是预测文本中两个标记实体之间的关系类型和方向。
[0003]基于深度学习的关系抽取方法主要是基于CNN,RNN网络来获取句子中的上下文信息,Zeng等人提出了一种使用深度卷积神经网络的模型来提取句子中的特征,Zhang等人提出了使用RNN来学习实体与实体间的长距离依赖性。CNN的目的是捕捉目标的局部和连续的上下文内容,而RNN则通过存储单元积累输入句子中的上下文信息。最近的研究中通常使用注意力机制来提升模型的性能,例如用于关系分类的基于注意力的双向长期短期记忆网络、通过基于注意力机制的分层递归神经网络进行语义关系分类等。
[0004]目前,基于注意力的神经网络模型致力于分辨句子的关键语义部分,并在许多NLP任务中取得了最新成果。SDP
‑
LSTM使用长期短期记忆(LSTM)沿最短依赖路径(SDP)捕获特征,该模型是用于通过排名进行分类的卷积神经网络,并使用具有成对排名的损失函数进行训练。Xu等人提出的深度循环神经网络(DRNNs)模型将不相关的词从最短依赖路径中剔除,以此达到提升模型性能的目的,并且在模型中还使用了其它例如单词词性标签( ...
【技术保护点】
【技术特征摘要】
1.一种基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述基于关键词注意力的双向GRU关系抽取数据处理方法包括以下步骤:步骤一,对基准数据集进行预处理;步骤二,对步骤一预处理后的语料进行词向量化;步骤三,通过多头注意力机制对步骤二的词向量进行初步去噪处理;步骤四,使用Bi
‑
GRU网络层对步骤三处理过的词向量进行编码,得到包含句子中的上下文信息的隐藏层向量;步骤五,将步骤四的隐藏层向量作为输入,传递至关键词注意力层中,通过将隐藏层输出结合实体对相对位置特征以及实体隐藏相似度特征,计算出关键词注意力权重;步骤六,将经过步骤五关键词注意力机制处理过的隐藏层向量输入至分类层,得到最终的关系抽取结果。2.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤一预处理包括:将原始文件中的原始句子以及关系标签进行处理生成完整的句子字典和标签字典,并将编码修改为UTF
‑
8编码;去除句子中的标点符号以及重复句子和符号;使用NLTK对数据集中的文本进行分词处理;所述步骤二进行词向量化包括:将分好词的语料使用预训练的EMLo模型进行词向量的转化;EMLo模型的输入层旨在将输入句子的语义信息和位置信息转换为向量,其中输入句子用{w1,w2,...,w
n
}表示,表示每个词与实体对的相对位置的向量;采用d
w
维的从ELMo词嵌入预训练模型得到的词向量,ELMo模型根据上下文推断出每个词对应的词向量;对于多义词加入了前后词的上下文理解;所述预训练模型的训练方法采用随机梯度下降法训练,关键词注意力机制使用交叉损失熵进行计算,所述损失函数的定义如以下公式所示:其中,|D|是训练数据集的大小,(S
(i)
,y
(i)
)是数据集中的第i个样本,采用AdaDelta优化器来最小化loss函数计算参数;在损失函数中加入L2正则化以防止过拟合,λ1,λ2是正则化的超参数;第二个正则化器试图强制模型处理真正重要的单词,并返回稀疏的权重分布;最终目标函数如以下等式所示:3.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤三多头注意机制通过输入层输出的词向量序列构建序列的对称相似性矩阵;所述多头注意力机制包括:给定密钥K、查询Q和值V作为输入,相当于词嵌入向量{x1,x2,...,x
n
},输出结果是一个具有输入句子上下文信息的特征序列;其中,关注模块将执行关注h次,计算过程如以下公式所示:
MultiHead(Q,K,V)=W
M
Concat[head1;...;head
r
];head
i
=Attention(W
iQ
Q,W
iK
K,W
iV
V);其中,是线性变换的可学习参数,WM是按比例计算和串联时按比例放缩点积注意力的输出,W
iQ
,W
iK
,W
iV
分别表示第i个头的查询、键和值。4.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤四Bi
‑
GRU网络层用于获取多头自注意层输出序列的上下文内信息;在信息提取的任务中,RNN是使用最多的模型;LSTM相对于RNN引入了长期记忆和门结构,缓解RNN长期去依赖性的问题,但同时也增加模型的计算量;而GRU则进一步优化LSTM,只保留new gate和reset gate两个门操作;将GRU单元对m
i
的处理记为GRU(m
i
),获得用于计算上下文化单词表示的等式如以下公式所示:式所示:式所示:Bi
‑
GRU的输入M是多头自注意层的输出,逐级输入到网络中;将每一时间步中的前向GRU网络隐藏状态与后向GRU网络隐藏状态进行并联,其中d
h
为GRU网络单元隐藏状态的维度,用{h1,h2,...,h
n
}表示每一个词的隐藏状态向量,并用箭头表示方向。5.如权利要求1所述的基于关键词注意力的双向GRU关系抽取数据处理方法,其特征在于,所述步骤五关键词注意力机制用于对隐藏层向量进行软选择,为一组标量的线性组合,权值用来表示模型对句子中某个词的关注程度,取值在0到1之间;为每个词引入一个状态变量z,当z为0时,表示对应的词与关系分类无关,如果z为1,则表示对应的词是句子中关系表达所需的词;每个句子都有对应的二元状态变量序列z;隐藏状态的期望值N为对应词被选中的概率,关键词注意力权重计算方法如以下公式所示:引入CRF来计算隐藏序列的权重序列H={h1,h2,...,h
n
},推导出p(z
i
=1|H),H代表输入序列,h
i
代表第i个词的GRU的隐藏输出;...
【专利技术属性】
技术研发人员:陈建峡,陈煜,张杰,刘畅,刘琦,
申请(专利权)人:湖北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。