一种基于异质图注意力网络的文档级关系抽取方法技术

技术编号:33894304 阅读:13 留言:0更新日期:2022-06-22 17:30
一种基于异质图注意力网络的文档级关系抽取方法,具体涉及一种基于异质图注意力网络的文档级实体关系的抽取方法,本发明专利技术为了解决现有的图神经网络在获取节点表示时忽略了图中节点和边,导致关系抽取的准确率低的问题,它包括以下步骤:S1、获取文档文本;S2、建立文档级关系抽取模型,将S1中获取的文档文本输入文档级关系抽取模型内进行训练,输出所述文档文本的关系,得到训练好的文档级关系抽取模型;S3、将待抽取文档级关系的文档文本输入S2中训练好的文档级关系抽取模型内,得到对应的文档文本的关系。属于计算机技术领域。文档文本的关系。属于计算机技术领域。文档文本的关系。属于计算机技术领域。

【技术实现步骤摘要】
一种基于异质图注意力网络的文档级关系抽取方法


[0001]本专利技术涉及一种抽取方法,具体涉及一种基于异质图注意力网络的文档级实体关系的抽取方法,属于计算机


技术介绍

[0002]关系抽取任务能够提取出自然语言文本中两个命名实体之间所存在的语义关系。关系抽取技术突破了传统的必须经过人工阅读、理解的方式来获得语义关系的限制,取而代之的是语义关系的自动查找和抽取,可以帮助计算机更好的处理文本数据,以及理解非结构化文本的语义信息。目前关系抽取的相关研究多集中在句子级别,即只关注句内两个实体之间的关系,对跨句子的情况关注相对较少。而根据自然语言的表达习惯,实体对分别位于不同句子的情况也十分常见。因此,研究文档级关系提取是十分必要和重要的。与句子级关系抽取相比,文档级关系抽取更为复杂,也更具挑战性,主要有以下几个方面:
[0003](1)在文档级关系抽取中,实体数量比句子级的大得多,因此,文档级关系抽取需要考虑大量实体之间的所有关系。
[0004](2)在句子级关系抽取中,实体通常在句子中出现的形式唯一。一个实体在文档级关系抽取中可能以不同的形式出现多次,比如指代,别名,缩略语等,这些短语通常被成为实体提及。
[0005](3)在文档级关系抽取中,可能无法直接抽取两个实体之间的关系,需要经过多重信息的推理才能得到。
[0006]所以为了解决多跳推理和实体表示问题,现有的大多数方法采用图神经网络来抽取关系。但是这些方法在获取节点表示时忽略了图中节点和边的重要作用,从而影响了关系抽取的准确率。

技术实现思路

[0007]本专利技术为了解决现有的图神经网络在获取节点表示时忽略了图中节点和边,导致关系抽取的准确率低的问题,进而提出了一种基于异质图注意力网络的文档级关系抽取方法。
[0008]本专利技术采取的技术方案是:
[0009]一种基于异质图注意力网络的文档级关系抽取方法,它包括以下步骤:
[0010]S1、获取文档文本;
[0011]S2、建立文档级关系抽取模型,将S1中获取的文档文本输入文档级关系抽取模型内进行训练,输出所述文档文本的关系,得到训练好的文档级关系抽取模型;
[0012]S3、将待抽取文档级关系的文档文本输入S2中训练好的文档级关系抽取模型内,得到对应的文档文本的关系。
[0013]优选的,所述S2中建立的文档级关系抽取模型依次包括向量表示层、上下文表示层、图表示层、分类层。
[0014]优选的,所述S2中建立文档级关系抽取模型,将S1中获取的文档文本输入文档级关系抽取模型内进行训练,输出所述文档文本的关系,得到训练好的文档级关系抽取模型,具体过程为:
[0015]S21、将S1中获取的文档文本输入文档级关系抽取模型的向量表示层内,输出对应的文档文本编码表示;
[0016]S22、将S21中得到的文档文本编码表示输入文档级关系抽取模型的上下文表示层内,输出文档文本的上下文表示;
[0017]S23、将S1中获取的文本文档输入文档级关系抽取模型的图表示层内构建对应的文档图,所述文档图包含多个节点,根据S22中得到的文档文本的上下文表示分别对文档图中的多个节点进行编码表示,将编码表示后的多个节点输入异质图注意力网络内,得到实体节点的编码表示;
[0018]S24、将S23中得到的实体节点的编码表示输入文档级关系抽取模型的分类层内,输出所述文档文本的关系,得到训练好的文档级关系抽取模型。
[0019]优选的,所述S22中上下文表示层采用BERT编码器进行上下文表示。
[0020]优选的,所述S23中将S1中获取的文本文档输入图表示层内构建对应的文档图,所述文档图包含多个节点,根据S22中得到的文档文本的上下文表示分别对文档图中的多个节点进行编码表示,利用异质图注意力网络对编码表示后的多个节点进行处理,得到实体节点的编码表示,具体过程为:
[0021]S231、将S1中获取的文本文档输入文档级关系抽取模型的图表示层内构建对应的文档图,所述文档图包含句子节点、提及节点和实体节点;
[0022]S232、根据S22中得到的文档文本的上下文表示分别对文档图中的句子节点、提及节点和实体节点进行编码表示;
[0023]S233、将S232中编码表示后的多个节点输入异质图注意力网络内,得到实体节点的编码表示。
[0024]优选的,所述S232中根据S22中得到的文档文本的上下文表示分别对文档图中的句子节点、提及节点和实体节点进行编码表示,具体过程为:
[0025]提及节点
[0026][0027]其中,表示第a个提及节点的编码表示;
[0028]x
i
表示文档文本中的第i个单词;
[0029]m
a
表示第a个提及节点;
[0030]h
i
表示文档文本中第i个单词的上下文表示;
[0031]实体节点
[0032][0033]其中,表示第b个实体节点的编码表示;
[0034]e
b
表示第b个实体节点;
[0035]句子节点
[0036][0037]其中,表示第c个实体节点的编码表示;
[0038]s
c
第c个句子节点。
[0039]优选的,所述S233中将S232中编码表示后的多个节点输入异质图注意力网络内,得到实体节点的编码表示,具体过程为:
[0040]S2331、基于启发式规则对S232中编码表示后的多个节点构建多种类别的无向边;
[0041]S2332、将S2331中构建的无向边输入异质图注意力网络内,得到实体节点的编码表示。
[0042]优选的,所述S2331中构建的无向边的类别为七种。
[0043]优选的,七种无向边分别包括:
[0044]第一提及边:在一个句子中的两个不同实体的提及之间建立一个边;
[0045]第二提及边:若一个句子中两个提及节点表示同一实体,则在所述两个提及节点之间建立一条边;
[0046]第一提及实体边:若一个句子中包含多个实体,则在其中一个实体与其他实体的提及之间建立一个边;
[0047]第二提及实体边:若句子一中包含实体,句子二中包含所述实体的提及,则在实体和提及之间建立一条边;
[0048]提及句子边:若一个句子中包含一个提及,则在提及和句子之间建立一条边;
[0049]实体句子边:若句子一中包含实体,句子二中至少包含所述实体的一个提及,则在实体和句子二之间建立一条边;
[0050]句子边:若有四个句子,则在每两个句子之间建立一条边。
[0051]优选的,所述异质图注意力网络依次包括节点级注意力层、第一类型级注意力层、第二类型级注意力层。
[0052]有益效果:
[0053]本专利技术构建了文档级关系抽取模型,文档级关系抽取模型依次包括向量表示层、上下文表示层、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异质图注意力网络的文档级关系抽取方法,其特征在于:它包括以下步骤:S1、获取文档文本;S2、建立文档级关系抽取模型,将S1中获取的文档文本输入文档级关系抽取模型内进行训练,输出所述文档文本的关系,得到训练好的文档级关系抽取模型;S3、将待抽取文档级关系的文档文本输入S2中训练好的文档级关系抽取模型内,得到对应的文档文本的关系。2.根据权利要求1中所述的一种基于异质图注意力网络的文档级关系抽取方法,其特征在于:所述S2中建立的文档级关系抽取模型依次包括向量表示层、上下文表示层、图表示层、分类层。3.根据权利要求2中所述的一种基于异质图注意力网络的文档级关系抽取方法,其特征在于:所述S2中建立文档级关系抽取模型,将S1中获取的文档文本输入文档级关系抽取模型内进行训练,输出所述文档文本的关系,得到训练好的文档级关系抽取模型,具体过程为:S21、将S1中获取的文档文本输入文档级关系抽取模型的向量表示层内,输出对应的文档文本编码表示;S22、将S21中得到的文档文本编码表示输入文档级关系抽取模型的上下文表示层内,输出文档文本的上下文表示;S23、将S1中获取的文本文档输入文档级关系抽取模型的图表示层内构建对应的文档图,所述文档图包含多个节点,根据S22中得到的文档文本的上下文表示分别对文档图中的多个节点进行编码表示,将编码表示后的多个节点输入异质图注意力网络内,得到实体节点的编码表示;S24、将S23中得到的实体节点的编码表示输入文档级关系抽取模型的分类层内,输出所述文档文本的关系,得到训练好的文档级关系抽取模型。4.根据权利要求3中所述的一种基于异质图注意力网络的文档级关系抽取方法,其特征在于:所述S22中上下文表示层采用BERT编码器进行上下文表示。5.根据权利要求4中所述的一种基于异质图注意力网络的文档级关系抽取方法,其特征在于:所述S23中将S1中获取的文本文档输入图表示层内构建对应的文档图,所述文档图包含多个节点,根据S22中得到的文档文本的上下文表示分别对文档图中的多个节点进行编码表示,利用异质图注意力网络对编码表示后的多个节点进行处理,得到实体节点的编码表示,具体过程为:S231、将S1中获取的文本文档输入文档级关系抽取模型的图表示层内构建对应的文档图,所述文档图包含句子节点、提及节点和实体节点;S232、根据S22中得到的文档文本的上下文表示分别对文档图中的句子节点、提及节点和实体节点进行编码表...

【专利技术属性】
技术研发人员:王念滨陈田田张政超何鸣周连科王勇王红滨孙彧
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1