一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法技术

技术编号:33435594 阅读:25 留言:0更新日期:2022-05-19 00:24
本发明专利技术提出采用BERT模型和BiGRU网络并融入注意力机制的实体关系抽取方法。该方法使用BERT作为神经网络模型嵌入层,使用动态词向量对中文进行编码,弥补了word2vec在解决多义词问题上的不足;基于GRU更好地处理序列化任务的能力和CNN提取局部特征的突出性能,改善了单个神经网络模型特征提取不足的问题;结合了注意力机制,输出特征通过注意力机制加权,使得对关系分类影响较大的词通过注意力机制加权,从而提高分类精度。从而提高分类精度。

【技术实现步骤摘要】
一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法


[0001]本专利技术属于自然语言处理领域。

技术介绍

[0002]关系抽取是信息抽取的重要子任务之一,主要目的是从文本中识别实体并抽 取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分 类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机 器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取 研究问题进一步得到广泛的关注和深入研究。
[0003]实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也被广泛 应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。中文实体 关系抽取由于中文句式和语法结构复杂,汉语有更多歧义,会影响关系分类的效 果。实体关系抽取是指从一个句子中抽取出关系三元组(entity1,relation,entity2), 例如,“任正非在深圳创办了华为公司。”,其中任正非是实体1,华为是实体2, 它们之间的关系是创办,那么抽取的三元组为(任正非,创办,华为)。
[0004]近年来,研究人员提出了几种基于深度学习的关系抽取模型。在这些模型中, Zeng等人,次提出在关系分类任务中使用深度卷积神经网络。该模型以句子的 词向量表示作为输入,通过卷积神经网络(CNN)自动提取特征,减少了大量的 特征标记工作,节省了大量的人力资源。Socher等人,提出了递归神经网络(RNN) 模型在实体关系抽取中的应用。语义信息的丢失是由于CNN网络无法细化池 化特征造成的。RNN网络存在梯度消失和梯度爆炸的问题,并且容易丢失长距 离关系,难以处理长距离依赖问题。Xu等人,采用改进的基于RNN的模型, 长短期记忆(LSTM),来改善长序列的问题。还有人提出了一种基于CNN和双 向LSTM的联合情感分析模型。在该模型中,CNN首先提取连续词之间的相关 特征,然后双向LSTM提取句子的正负语义信息。实验表明,双向LSTM网络 结合CNN可以很好地学习隐藏在句子中的长距离依赖,从而在情感分析任务中 取得更好的效果。
[0005]然而,RNN提取局部特征的能力不足。融合注意力机制后很难得到入句子 丰富的特征表示,模型学习特征的能力将直接影响关系抽取的准确性。

技术实现思路

[0006]为了解决上述问题,本专利技术提出采用BERT模型和BiGRU网络并融入注意 力机制的实体关系抽取方法。实验结果达到以下效果:
[0007](1)该方法使用BERT作为神经网络模型嵌入层,使用动态词向量对中文 进行编码,弥补了word2vec在解决多义词问题上的不足。
[0008](2)该方法基于GRU更好地处理序列化任务的能力和CNN提取局部特征 的突出性能,改善了单个神经网络模型特征提取不足的问题。
[0009](3)该方法结合了注意力机制,输出特征通过注意力机制加权,使得对关 系分类
影响较大的词通过注意力机制加权,从而提高分类精度。
附图说明
[0010]图1为本专利技术的算法整体框图。
[0011]图2为本专利技术中应用到的BERT模型部分结构图。
[0012]图3为本专利技术中应用到的GRU内部结构图。
[0013]图4为本专利技术中应用到的BiGRU网络结构图。
[0014]图5为本专利技术在实验数据验证集上的损失率图。
[0015]图6为本专利技术在实验数据验证集上的准确率图。
[0016]图7为本专利技术中实验环境说明。
[0017]图8为本专利技术在数据集上模型的对比结果。
具体实施方式
[0018]下面结合附图对本专利技术进一步说明。
[0019]本专利技术主要包括五个部分,整体框架如图1所示。
[0020](1)BERT嵌入层:本专利技术使用BERT对输入句子进行向量化,得到词向 量矩阵Y作为卷积神经网络层的输入。
[0021](2)卷积神经网络层:词向量矩阵的局部特征提取Y通过卷积层进行特征降 维,然后通过池化层进行特征降维,以获得更好的特征信息p
i
。最后,序列化矩 阵P通过拼接获得p
i
作为双向门控循环单元层的输入。
[0022](3)双向门控循环单元层:通过BiGRU学习特征矩阵的上下信P获得新的 特征表示H包含上下文信息。
[0023](4)注意力机制层:对输入向量进行加权H得到一个新的向量表示Y。
[0024](5)分类器层:输入注意力机制层的输出Y到softmax分类器得到关系分类 的结果。
[0025]步骤一:BERT嵌入层
[0026]嵌入层作为模型的输入部分,主要实现对给定输入句子的向量化,将面向人 的文本信息转化为计算机能够理解的数字语言。2013年,Google发布了word2vec 工具,它使用典型的分布式词向量表示,将one

hot形式的高维词向量转换为低 维向量,从而实现文本处理。2014年,斯坦福NLP研究组提出了词表示工具 Glove基于全球词频统计。该工具首先基于语料构建词频共现矩阵,然后基于共 现矩阵和手套模型学习词向量。Glove本身使用全局信息,这会导致高内存消耗。 相比之下,研究人员更喜欢word2vec,它可以节省资源。然而,word2vec生成 的词向量是静态的,只有单向词到向量的映射,没有考虑到一个词在其上下文中 的不同语义。
[0027]在关系抽取任务中,同一个词在不同的关系表达语句中通常具有不同的含义, 考虑到汉语多义词的特点,本专利技术采用基于词向量动态表示的BERT模型。与 word2vec相比,该模型在框架、预训练损失函数和训练方法上都有很大的改进。 BERT预训练模型使用双向转换器编码器,使模型能够学习每个词前后的信息, 不仅可以解决一个词的多义问题,还可以得到基于该词的文本的向量化表示。模 型结构如图2所示。
[0028]E1,E2,E3,...,E
n
表示模型的输入,Y1,Y2,Y3,...,Y
n
表示模型的输出,中间两层 是可以获取上下文信息的双向transformer特征提取器。
[0029]对于输入文本T={X1,X2,X3,...,X
n
},X
n
表示第n个句子中的词。屏蔽后,文 本中的实体表示为f
ii
={E1,E2,E3,...,E
n
},E
n
表示第n个实体,经过双向变换器后, 词向量表示Y={Y1,Y2,Y3,...,Y
n
}。
[0030]步骤二:卷积神经网络层
[0031]本专利技术使用CNN来提取输入句子的局部特征。CNN主要包括卷积层、池化 层和输入输出层。
[0032](1)卷积层
[0033]得到词向量表示后Y对应通过embedding层的文本,设置一个维度为j*k, j是窗口中包含的单词数,k是词向量的长度。卷积层进行的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法其特征在于,包括以下步骤:步骤1:采用基于词向量动态表示的BERT模型,与word2vec相比,该模型在框架、预训练损失函数和训练方法上都有很大的改进,BERT预训练模型使用双向转换器编码器,使模型能够学习每个词前后的信息,不仅可以解决一个词的多义问题,还可以得到基于该词的文本的向量化表示;步骤2:使用CNN来提取输入句子的局部特征,CNN主要包括卷积层、池化层和输入输出层;步骤3:在CNN神经网络层之后加入BiGRU层,序列P通过拼接局部特征矩阵得到p
i
在池化层之后作为BiGRU层的输入,其中P={p1,p2,p3,

,p
n
},GRU是RNN的一种变体,2014年首次被提出,用于解决长期记忆和反向传播中的梯度问题,与LSTM相比,GRU将LSTM中的遗忘门和输入...

【专利技术属性】
技术研发人员:周焕来李嘉豪乔磊崖曾靓李金润刘桐贾海涛王俊
申请(专利权)人:一拓通信集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1