一种基于类型相关性表征的实体关系抽取方法技术

技术编号:37673683 阅读:14 留言:0更新日期:2023-05-26 04:36
本发明专利技术提供一种基于类型相关性表征的实体关系抽取方法,属于人工智能语言处理领域。实体关系抽取通常采用深度学习的方法选取特征,在不同领域进行实体关系抽取时,通常没能考虑到主体和客体实体的类型相关性对关系抽取的帮助。在此提出了一种基于类型相关性表征的实体关系抽取方法,该方法使用实体标签和位置嵌入来增强字符的信息,使用注意力控机制来融合实体局部上下文表征,并通过实体类型-类型关系指导关系抽取的方法。医学领域数据集CMeIE和文学领域SanWen数据集实验结果表明,本发明专利技术提出的基于类型相关性表征的实体关系抽取方法是有效的。抽取方法是有效的。抽取方法是有效的。

【技术实现步骤摘要】
一种基于类型相关性表征的实体关系抽取方法


[0001]本专利技术提供一种基于类型相关性表征的实体关系抽取方法,属于语言处理


技术介绍

[0002]深度神经网络可以自动地从领域文本中提取特征,而且只需要很少或者甚至不需要进行任何特征工程。即使没有人工干预,该模型仍然能够保持较高的准确性和稳定性。这种自动特征提取的能力是深度神经网络在自然语言处理任务中优秀表现的关键之一,使其在许多领域都有着广泛的应用。所以关系抽取任务主流的方法也是使用深度学习。
[0003]近年来,Zhao等人提出了一种双阶段句法CNN模型,该模型结合了词向量和多种外部特征,包括句法信息、位置和词性等。出了一种改进的二叉树LSTM模型,该模型通过结合词向量与位置、句法信息等特征来为药物相互作用关系的分类提供了多重特征。Park等人考虑到了输入文本数据的上下文语境信息和空间结构信息,针对这一特点,他们提出了一种名为AGCN的注意力图卷积神经网络模型。该模型采用了注意力机制,并设计了一种新的剪枝策略,用于捕获句法特征中的重要信息。Chen在20年提出了关系抽取流水线模型,最后的结论是,使用单独的编码器,可以让模型学习更好的特定任务特征,并且引入实体类别信息会关系模型有提升。Ye等人在Chen的模型基础上进行了改进,并提出了一种新的跨度表示方法。该方法在编码器中采用了面向邻域的布局,综合考虑了邻域跨度的特征,以更好地对实体边界信息进行建模。同时,该方法还通过对token的包装方式考虑跨度之间的相互关系。目前中文医学文本关系抽取方法仍有一些不足:1. 对于一些现有的先进的模型和baseline,对于实体名称及类型,实体类型贡献更大而很少关注。2. 句子中的实体对于字符的相对位置和绝对位置都对关系抽取有影响,现有研究有些不足。3. 主体实体和客体实体的类型之间也有很强的相关性,现有研究没有关注利用此信息。

技术实现思路

[0004]针对上述提到的不足,本专利技术提出了并实现了一种基于类型相关性表征的实体关系抽取方法;提升了实体关系抽取的性能。
[0005]本专利技术的技术方案是:所述抽取方法的步骤如下:Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子, 和一对主体实体和客体实体以及它们的类型, ,然后将文本标记符<S: >和</S: >插入到句子S中对应的主体实体间,将文本标记符<O: >和</O: >插入到句子S中对应的客体实体间。
[0006]Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序
列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表来获得字符嵌入。
[0007]Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;所述Step3中包括如下内容:在Step3中分别计算第i个字符相对两个实体的相对位置和然后通过查找表将其转化为对应的向量,维度大小都是,然后将两者拼接得到相对位置嵌入;最后,由字符嵌入和相对位置嵌入的拼接得到输入字符的表征, ,字符嵌入的维度。
[0008]Step4、使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;所述Step4中包括如下内容:在Step4中使用Transformer作为编码器,多头注意力机制通过引入多个不同的子空间,扩展了模型关注不同位置的能力,这种方法使模型能够在不同的空间中并行地学习到不同的特征表示,从而更好地捕捉输入序列中的关系;对于实体和实体间的关系,引入一个可训练的实体类型表,输入标记与,通过Transformer编码器得到主体实体和客体实体隐藏层向量和,为了让关系对的表征向量可训练,将两个隐藏层向量进行拼接,平均池化,再送入线性层得到实体类型—类型关系表征。
[0009]Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;在步骤Step5中,在通过编码器得到的字符的隐藏层向量后,首先采用字符级注意机制将其合并成句子级特征向量,记为,即实体的上下文表征,这里,表示隐藏状态的维度,表示序列长度,句子级特征向量被计算为句子中所有字符隐藏特征向量的加权和;根据输入标记与,得到主体实体的token序列{
ꢀ…
,同理可得到客体实体的token序列{
ꢀ…
,i和j分别表示主体实体和客体实体的长度,然后使用max

pooling操作得到句子中主体实体和客体实体的语义表征和;为了更好的识别主体实体和客体实体的关系类型,将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合,得到上下文增强后的主体表征、客体表征;在步骤Step5中,将上下文增强后的主体表征、客体表征和实体类型

类型关系表征进行拼接,得到实体类型增强后的融合表征。
[0010]Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测。
[0011]所述Step6中,为了计算每个关系的条件概率,实体类型增强后的融合表征被馈
送到Soft Max分类器进行预测分类抽取;最后,使用交叉熵损失函数训练模型。
[0012]本专利技术的有益效果是:1、本专利技术提出了一种使用实体类型标签和位置嵌入来增强中文字符的方式,其中,实体类型标签中不仅包含实体的类型信息,还有实体在文本中的位置信息以及主体实体和客体实体的标记,位置嵌入进一步增强实体的相对位置信息,再通过注意力机制得到文本中和实体间的局部上下文表征,结合实体类型对应的关系,最终推断出主体实体与客体实体的关系;2、本专利技术在一定程度上解决了以往相关研究工作中对主体实体和客体实体的位置信息获取不充分,且未考虑以实体类型的相关性信息来引导实体类型、上下文语意、主体实体和客体实体位置关系三者的交互建模的问题;3、本专利技术使用注意力机制使得抽取模型选取最适合当前语境的实体类型及上下文语意信息,提升模型对实体关系抽取性能,并在一定程度上提高了模型的泛化能力;4、本专利技术提出了一种基于实体类型相关性和实体增强的关系抽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于类型相关性表征的实体关系抽取方法,其特征在于,所述抽取方法的步骤如下:Step1、对数据集进行预处理:将带有实体类型及主体实体和客体实体的标记插入到数据集中,得到带有实体类型及主体实体和客体实体标记的数据集;Step2、获取字符嵌入:将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量,通过密集向量获取字符嵌入;Step3、获取输入字符表征:将步骤Step2得到的字符嵌入与位置向量进行联合嵌入,得到输入字符的表征;Step4、使用Transformer对输入序列进行编码,输入序列中包含输入字符的表征,将输出的隐藏层向量使用注意力机制进行特征压缩,得到实体类型—类型关系表征;Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征,将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合,将融合后的表征和实体类型—类型关系表征进行拼接;Step6、标签预测:将步骤Step5得到的表征送入到Softmax层,以获得最终的预测。2.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step1中包括如下内容:关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型,在每一句中插入键入的标记;具体来说,将给定的一个句子, 和一对主体实体和客体实体以及它们的类型, ,然后将文本标记符<S: >和</S: >插入到句子S中对应的主体实体间,将文本标记符<O: >和</O: >插入到句子S中对应的客体实体间。3.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step2中包括如下内容:采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征,这种表征通常蕴含了字符的上下文信息,即也是一种字符粒度的局部信息;然后使用word2vec模型预训练字符嵌入查找表来获得字符嵌入。4.根据权利要求1的基于类型相关性表征的实体关系抽取方法,其特征在于,所述Step3中包括如下内容:在S...

【专利技术属性】
技术研发人员:相艳郭俊辰刘威郭军军
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1