【技术实现步骤摘要】
一种实体关系联合抽取方法及系统
本专利技术涉及深度学习算法应用
,尤其涉及一种实体关系联合抽取方法及系统。
技术介绍
随着数字时代的兴起,社交媒体、文章、新闻等形式的信息爆炸式增长。这些数据大部分都是非结构化形式的,人工管理和有效利用这些信息是很繁琐、乏味和费时费力的。因此,信息爆炸以及对更复杂有效信息的处理工具的需求,使得人们对自动信息抽取的技术越来越关注。信息抽取系统以自然语言文本作为输入,从文本中识别出相关的知识要素(通常是预先定义好的类型),并生成由特定标准指定的结构化信息,这些信息与特定的应用程序相关。最近几年,信息抽取领域快速发展,研究学者提出许多方法使信息抽取过程自动化。然而,由于Web数据具有异构性、非结构化等特点,自动信息抽取仍然存在许多具有挑战性的研究问题。信息抽取一般包括两个普遍存在并且紧密相关的子任务:命名实体识别和关系抽取。现有技术通常使用基于流水线的方法来处理这两个子任务,然而这种分离的框架会导致错误传播的问题,并且忽略了两个子任务之间的相关性。最近的研究提出使用联合方法来同时进行命 ...
【技术保护点】
1.一种实体关系联合抽取方法,其特征在于,包括步骤:/n对输入句子进行数据预处理;/n将输入句子中的每个词映射成对应的词向量;/n将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;/n采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。/n
【技术特征摘要】
1.一种实体关系联合抽取方法,其特征在于,包括步骤:
对输入句子进行数据预处理;
将输入句子中的每个词映射成对应的词向量;
将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练;
采用训练后的LSTM-GCN模型进行实体抽取和关系抽取。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括实体标注、单词映射、图的构造;
所述实体标注采用BIO标注机制进行标注,每个实体包含有一个或多个单词,为每个单词打上标签;
所述单词映射表示将输入句子中的每个单词映射成对应的ID;
所述图的构造通过依存解析器为输入句子构造一棵依存树,再采用邻接矩阵表示该依存树。
3.根据权利要求1所述的方法,其特征在于,所述将得到的词向量输入到基于长短期记忆网络和图卷积神经网络的实体关系联合抽取模型中进行训练的步骤中,包括:
将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态;
将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示;
通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示;
将得到的每个词最终的向量表示经过全连接层将向量维度映射为实体标签大小,然后经过条件随机场得到每个词的各类实体标签概率;
将关系抽取建模为多头选择问题,对于每个单词,同时预测该单词的头实体及该单词与头实体之间的关系类型;
将命名实体识别的交叉熵损失与关系抽取的交叉熵损失相加作为整个模型的最终损失函数,最小化最终损失函数;
通过反向传播算法训练模型,更新模型中的所有参数。
4.根据权利要求3所述的方法,其特征在于,所述将得到的词向量矩阵输入到Bi-LSTM中,捕捉每个单词的上下文信息,得到每个词对应的隐藏层状态的步骤中,通过在时间步t时拼接前向和后向的隐藏层状态得到每个单词的双向信息,双向LSTM在时间步t的输出可以用如下的公式表示:
5.根据权利要求3所述的方法,其特征在于,所述将得到的每个词的隐藏层状态向量输入到Bi-GCN中,捕捉每个单词的区域信息,得到每个词对应的向量表示的步骤中,每个词对应的向量表示为具体计算公式如下:
其中,(g)表示GCN的参数,表示第t个词的隐藏层状态,σ表示非线性函数包括但不限于tanh函数和relu函数,和分别表示出入方向的邻接矩阵,表示向量拼接。
6.根据权利要求3所述的方法,其特征在于,所述通过特征融合机制融合每个词的上下文特征和区域特征,利用可学习的门向量,选择上下文特征和区域特征来形成每个词最终的向量表示,包括:
通过全连接层结合上下文特征和区域特征:
新建可学习的门向量gt,用来选择上下文特征和区域特征:
通过门向量来控制上下文特征和区域特征的流动,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。