本发明专利技术公开了一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;采用训练后的LSTM‑GCN模型进行实体抽取和关系抽取。本发明专利技术通过LSTM和GCN可以同时捕捉到输入句子的顺序信息和区域信息,更好地表示每个词,提升了实体抽取和关系抽取的性能,具有一定的实用性。
A joint extraction method and system of entity relations
【技术实现步骤摘要】
一种实体关系联合抽取方法及系统
本专利技术涉及深度学习算法应用
,尤其涉及一种实体关系联合抽取方法及系统。
技术介绍
随着数字时代的兴起,社交媒体、文章、新闻等形式的信息爆炸式增长。这些数据大部分都是非结构化形式的,人工管理和有效利用这些信息是很繁琐、乏味和费时费力的。因此,信息爆炸以及对更复杂有效信息的处理工具的需求,使得人们对自动信息抽取的技术越来越关注。信息抽取系统以自然语言文本作为输入,从文本中识别出相关的知识要素(通常是预先定义好的类型),并生成由特定标准指定的结构化信息,这些信息与特定的应用程序相关。最近几年,信息抽取领域快速发展,研究学者提出许多方法使信息抽取过程自动化。然而,由于Web数据具有异构性、非结构化等特点,自动信息抽取仍然存在许多具有挑战性的研究问题。信息抽取一般包括两个普遍存在并且紧密相关的子任务:命名实体识别和关系抽取。现有技术通常使用基于流水线的方法来处理这两个子任务,然而这种分离的框架会导致错误传播的问题,并且忽略了两个子任务之间的相关性。最近的研究提出使用联合方法来同时进行命名实体识别和关系抽取,以解决上述问题。现有技术提出了一种抽取方法,该方法将每个词转化为一个预定义类型的标签的形式,在预测阶段中,预测出每个词对应的标签,根据标签和三元组中每个词的对应关系,得到句子中存在的实体关系三元组。但是所述方法无法解决关系重叠的问题,而关系重叠的现象在数据集中普遍存在。因此,急需一种实体关系联合抽取方法来解决关系重叠的问题。
技术实现思路
本专利技术的目的在于解决现有技术中的关系重叠问题,提供一种实体关系联合抽取方法。本专利技术的目的通过以下技术方案实现:一种实体关系联合抽取方法,包括步骤:对输入句子进行数据预处理;将输入句子中的每个词映射成对应的词向量;将得到的词向量输入到基于长短期记忆网络和图卷积神经网络(LSTM-GCN)的实体关系联合抽取模型中进行训练;采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。具体地,所述预处理包括实体标注、单词映射、图的构造。更进一步地,所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签,这样就知道每个实体的开始结束位置以及实体类型。更进一步地,所述单词映射表示将输入句子中的每个单词映射成对应的ID。更进一步地,所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。具体地,所述LSTM-GCN实体关系联合抽取模型训练的步骤中,包括:将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示;将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场(ConditionalRandomField)得到每个词的各类实体标签概率;将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;通过反向传播算法训练模型,更新模型中的所有参数。一种LSTM-GCN的实体关系联合抽取系统,包括:预处理模块,用于对实体采用BIO标注机制进行标注,将输入句子的每个单词转换为对应的ID,为输入句子通过依存解析器构造依存树;嵌入模块,用于将输入句子中的每个词对应的ID映射成对应的词向量;结果处理模块,用于使用训练后的LSTM-GCN模型同时预测输入句子的实体及其关系;模型训练模块,用于对LSTM-GCN模型进行训练,包括:特征构建模块,用于将词向量输入到Bi-LSTM网络中提取每个词的上下文特征,再将LSTM的输出输入到Bi-GCN网络中提取每个词的区域特征,最后通过特征融合机制融合每个词的上下文特征和区域特征;实体识别模块,用于通过条件随机场得到每个词的各类实体标签概率;关系抽取模块,用于将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型。本专利技术相较于现有技术,具有以下的有益效果:本专利技术通过长短期记忆网络(LongShortTermMemory,LSTM)和图卷积神经网络(GraphConvolutionalNetwork,GCN)同时捕捉句子的上下文特征和区域特征,能够更好地表示每个词,并且解决了关系重叠的问题,提升了实体抽取和关系抽取的性能。附图说明图1为本专利技术中一种实体关系联合抽取方法的流程示意图;图2是本实施例中的实体关系联合抽取模型的结构示意图;图3是本实施例中依存句法分析的示例图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例如图1所示为一种实体关系联合抽取方法的流程图,所述方法包括步骤:(1)对输入句子进行数据预处理,所述预处理包括:根据BIO(Begin,Inside,Outside)标注机制对实体和关系进行标注,每个实体包含有一个或多个单词,为每个单词打上标签,获取每个实体的开始结束位置以及实体类型。在本实施例中,对于句子“SmithlivesinCalifornia.”对应的实体标签序列为“B-PEROOB-LOC”。其中“PER”表示人名,标签“O”表示非实体,“LOC”表示地点。该句子对应的关系标签为[[‘N’,‘N’,‘N’,‘livein’],[‘N’,‘N’,‘N’,‘N’],[‘N’,‘N’,‘N’,‘N’],[‘livein’,‘N’,‘N’,‘N’]]。其中标注了每两个单词之间的关系,‘N’表示不存在关系,‘livein’表示对应的两个单词之间存在‘livein’关系。将输入句子中的每个单词映射成对应的ID。上述句子“SmithlivesinCalifornia.”对应的索引序列为“10554625482156452”。通过依存解析器对输入句子进行依存分析,得到词汇之间的依存关系,为输入句子构造一颗依存树,如图3所示,然后使用邻接矩阵表示该依存树。本实施例中使用的依存解析器是spacy,一个高级的自然语言处理库,拥有很多强大的功能。(2)将输入句子中的每个词映射成对应的词向量;模型的输入是单词序列w=w1,w2,...wn,根据每个单词的ID映射成相应的词向量wword2vec,形成词向量矩阵。本实施例中使用Skip-Gramword2vec预训练的词向量模型。(3)将得到的词本文档来自技高网...
【技术保护点】
1.一种实体关系联合抽取方法,其特征在于,包括步骤:/n对输入句子进行数据预处理;/n将输入句子中的每个词映射成对应的词向量;/n将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;/n采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。/n
【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,包括步骤:
对输入句子进行数据预处理;
将输入句子中的每个词映射成对应的词向量;
将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;
采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括实体标注、单词映射、图的构造;
所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签;
所述单词映射表示将输入句子中的每个单词映射成对应的ID;
所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。
3.根据权利要求1所述的方法,其特征在于,所述将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练的步骤中,包括:
将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示;
将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场得到每个词的各类实体标签概率;
将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;
将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;
通过反向传播算法训练模型,更新模型中的所有参数。
4.根据权利要求3所述的方法,其特征在于,所述将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态的步骤中,通过在时间步t时拼接前向和后向的隐藏层状态得到每个单词的双向信息,双向LSTM在时间步t的输出可以用如下的公式表示:
5.根据权利要求3所述的方法,其特征在于,所述将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示的步骤中,每个词对应的向量表示为具体计算公式如下:
其中,(g)表示GCN的参数,表示第t个词的隐藏层状态,σ表示非线性函数包括但不限于tanh函数和relu函数,和分别表示出入方向的邻接矩阵,表示向量拼接。
6.根据权利要求3所述的方法,其特征在于,所述通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示,包括:
通过全连接层结合上下文特征和区域特征:
新建可学习的门向量gt,用来选择上下文特征和区域特征:
通过门向量来控制上下文特征和区域特征的流动,...
【专利技术属性】
技术研发人员:蔡毅,陈峰,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。