System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图注意力网络文档级关系抽取方法及系统技术方案_技高网

图注意力网络文档级关系抽取方法及系统技术方案

技术编号:40532993 阅读:8 留言:0更新日期:2024-03-01 13:54
本发明专利技术属于自然语言处理技术领域,公开了一种基于正负样本训练的图注意力文档级关系抽取方法及系统,首先对数据集进行预处理,然后将数据集输入编码器中获得文件的上下文编码,此后同时创建提及图和共指引用来识别文档中的实体部分,通过图注意力机制将提及图和共指引用图中的节点信息进行合并获得最终的实体图,对实体图中的路径进行融合,结合路径与实体节点的信息,预测实体对之间的关系。本发明专利技术使用正负样本训练的方式训练模型,解决了数据集中的噪音问题以及长尾问题;构建共指引用图,有效提取句子中的代词实体,使得实体信息更加完善;利用图注意力机制,自适应融合邻居节点的信息,获取更完善的实体关系信息,模型准确率更高。

【技术实现步骤摘要】

本专利技术属于自然语言处理,尤其涉及一种基于正负样本训练的图注意力网络文档级关系抽取方法。


技术介绍

1、语言在日常生活中(语言是人们表达信息的特殊方式之一)无处不在,因此自然语言处理任务也占据着重要的地位,随着自然语言处理的不断发展,信息抽取也成为各领域关注的重点,关系抽取作为信息抽取的主要子任务之一,也是目前各领域专家所关注的领域。关系抽取主要是将文档中各个实体进行识别并为每个实体对分配特定的关系,以确定句子中存在的语义。然而生活中语言不是单个句子出现的,所以从文档中抽取关系是一项很有必要的研究。文档级关系抽取会比句子级关系抽取困难很多,其主要体现在以下方面:

2、(1)句子级关系抽取是在一句话中进行关系抽取,句子中单词含量较少,而文档级关系抽取一般包括很多个句子,句子中单词含量较多,语义复杂,因此抽取变得复杂。

3、(2)在文档级关系抽取中很多实体不仅仅出现一次,且不一定出现在单个句子之中。而句子级抽取一个实体往往只出现一次。

4、(3)文档中需要抽取的关系可能不在一个句子中,需要跨句子进行关系抽取,而句子级关系抽取不需要。综上所述,文档级关系抽取对于数据集以及抽取模型的要求会更加严苛,现存文档级关系数据集是通过远程监督进行构建的,但是由于文档级关系抽取是及其复杂的因此构建高质量的基准抽取数据集需要耗费大量的人力物力。数据集中存在大量长尾问题,导致模型训练效果不佳。

5、近年来,对数据集进行去噪操作构建新数据集对模型训练的方法受到广泛关注,有些通过新的标注策略对数据集进行重新标注,有些通过树结构对文本数据进行去噪,但是这些方法繁冗复杂,尤其是在大型数据集中,增加了时间成本以及人工成本,还提高了关系抽取任务的难度。

6、而且目前关于文档级关系抽取的研究大多忽略了句子中代词的出现,不将其视为一个实体,然而这些代词往往代指了前面出现过的一些实体,这就使得文档中的信息出现缺失,造成关系抽取不充分的后果。

7、通过上述分析,现有技术存在的问题及缺陷为:

8、(1)长距离依赖:文档级关系抽取需要考虑文档中的全局信息,而不仅仅是局部句子之间的关系。这意味着在分析长文档时,需要处理长距离的依赖关系,这增加了任务的复杂性。

9、(2)代词消解:文档级关系抽取中代词的出现会导致信息的缺失,因为代词通常引用先前提到的实体。正确识别和关联代词与其先行词之间的关系是一个具有挑战性的任务。

10、(3)噪声和干扰:文档中可能存在大量的噪声和干扰,如文档结构、非关键信息和不完整的句子等。这些噪声和干扰会干扰关系抽取系统的性能,导致错误的结果。


技术实现思路

1、针对现有技术存在的问题,本专利技术提供了一种串联芯片间的数据同步优化方法、系统、设备及终端。

2、本专利技术是这样实现的,一种基于正负样本训练的图注意力文档级关系抽取方法首先对数据集进行处理,将数据集中的文档输入到编码器中获得每个单词的嵌入表示,在此之后,模型通过一种双通道的方式分别利用gcn和gat同时构建提及图和共指引用图,然后将共指引用图合并到体制图中形成提及共指图,再根据图中每个节点的信息,将指向同一实体的节点合并为一个实体节点构建实体图,根据实体图中节点之间的边对关系进行预测,最后根据预测的实体关系结果构建实体和关系的正负样本进行训练,从而得到最终的关系预测模型。

3、基于正负样本训练的图注意力文档级关系抽取方法包括:

4、步骤一,数据集预处理;对数据集中的一部分数据的代词部分进行人工标注,然后通过深度学习方法,完成对整个数据集代词部分的标注;

5、步骤二,编码数据集;首先将文档输入到bert编码器,获取文档中每个单词的基于上下文的隐表示以及句子存在的语义关系。通过一个预处理器将上述嵌入向量变为稠密向量表示,对实体进行检测和定位,并为实体添加属性向量;

6、步骤三,构建提及图;将步骤一与步骤二产生的单词向量表示输入到图结构中,通过对语义信息的理解,将可以组成实体的单词表示进行合并组成一个提及节点,并将提及信息存储在节点中,每个句子中的提及都会有一条边,相同的提及之间也会有一条边;

7、步骤四,构建共指引用图;与提及图相似,共指引用图是由提及以及提及的代词节点组成,一个句子作为一个单位,为句子中的提及构建一条链,以此来寻找提及的代词节点;

8、步骤五,将提及图中的提及节点与指代消除图中与之相关的代词节点相互关联合并,设置一个阈值,将大于此阈值的相同提及、代词之间的边进行合并,形成提及指代图。提及指代图中相同提及的节点合并形成一个实体节点,并将提及指代图中的边进行合并,构造成关系抽取所需要的实体图;

9、步骤六,关系预测:将提及节点进行合并之后,获得预测所需的实体节点,之后会对量实体之间的边及逆行合并,以便寻找两个实体之间的关系。

10、进一步,步骤二中,对文档d={s1,s2,.......,sn},表示文档d中包含n个句子,si={w1,w2....wm}表示第i个句子中包含m个单词;d={w1,w2,.....wn}表示文档d中包含n个单词,首先从单词表中查找每个单词的表x={x1,x2,......x3},然后将文档d中的单词表示输入到bert编码器中,生成每个单词的隐向量表示为g={g1,g2,.......gn};

11、[g1,g2,.......gn]=encoder([x1,x2,......x3])  (1)

12、准确来说bert会获取每个句子的整体信息,存储在句子第一个位置,并在每个句子最后一个位置插入seq表示句子的结束,因此可以获得每个句子中的整体信息以及句子的结束位置。

13、进一步,步骤三中,提及是一个实体的不同表示形式,每个句子中的提及作为一个节点,同一句子中的提及进行连接作为提及图的边,并将不同句子的相同提及进行连接作为提及图的边,将bert编码器输出的每个句子的总体信息cls作为每个句子的代表节点,连接每个句子中的所有实体,其中提及节点通过gcn模型将每个提及的邻居节点信息进行融合,使得每个提及节点有更丰富的上下文信息。给定节点u的第l层表示,可以通过下面公式得到第l+1层的节点u的向量表示;

14、

15、其中κ是不同类型的边,是模型的训练参数,νκ(u)表示在第κ类型边缘中连接的节点u的邻居;σ是一个relu激活函数;

16、每一层gcn的表示代表不同的特征节点,因此将上述每一层的向量表示结合起来得到每个提及的最终表示;

17、

18、其中是节点u的初始表示。对于由第t个单词到第s个单词组成的提及u,其表示如下所示:

19、

20、进一步,步骤四具体包括:定义一组bc,是一个由bc个最有可能形成共指词的span组成的链,bc表示指向同一提及的共指词的个数。定义一个实数矩阵表示共指可信度得分,大小为bc*bc,对本文档来自技高网...

【技术保护点】

1.一种基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,首先对数据集进行处理,将数据集中的文档输入到编码器中获得每个单词的嵌入表示;在此之后,模型通过一种双通道的方式分别利用GCN和GAT同时构建提及图和共指引用图,然后将共指引用图合并到体制图中形成提及共指图,再根据图中每个节点的信息,将指向同一实体的节点合并为一个实体节点构建实体图,根据实体图中节点之间的边对关系进行预测,最后根据预测的实体关系结果构建实体和关系的正负样本进行训练,从而得到最终的关系预测模型。

2.如权利要求1所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,具体包括:

3.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤二中,将文档表示为文档D,其中文档D包含n个句子,每个句子包含m个单词,并包含N个单词;从单词表中查找每个单词的表,将文档D中的单词表示输入到BERT编码器中,生成每个单词的隐向量表示。

4.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤三中,将不同句子中的提及作为节点,同一句子中的提及连接作为提及图的边,不同句子的相同提及连接作为提及图的边;利用BERT编码器输出的每个句子的总体信息作为句子的代表节点,连接每个句子中的所有实体;通过GCN模型融合每个提及节点的邻居节点信息,得到每个提及节点的更丰富表示。

5.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤四中,定义一组链,包括多个最有可能形成共指词的span,表示指向同一提及的共指词的个数;定义实数矩阵表示共指可信度得分,并根据实数矩阵对指代消除图中的节点进行合并;利用GAT模型融合指向同一实体的提及,输出实体节点的新特征。

6.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤五中,通过实体节点路径之间的推理,对其进行建模;通过加权平均对正负样本训练结果进行软注意力加权,得到最终的模型和结果。

7.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤六中,正负样本训练包括将模型识别出的实体对在ground truth中的数据作为正样本,未在ground truth中的实体作为负样本;对于关系,将预测的ground truth中关系实体对作为正样本,未预测出关系的实体对作为负样本;将正负样本分别输入到模型中进行迭代训练。

8.如权利要求1所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤七中,通过GAT对指向同一实体的提及进行合并;计算提及与邻居节点之间的相似度系数,根据相似度对每个提及进行归一化处理,融合所有提及信息和邻居节点信息,得到实体节点的新特征;通过关系预测,预测实体对之间的关系,将关系预测视为多标签分类问题;

9.一种应用如权利要求1~8任意一项所述基于正负样本训练的图注意力文档级关系抽取方法的基于正负样本训练的图注意力文档级关系抽取系统,基于正负样本训练的图注意力文档级关系抽取系统包括:

10.一种信息数据处理终端,信息数据处理终端用于实现如权利要求8所述的基于正负样本训练的图注意力文档级关系抽取系统。

...

【技术特征摘要】

1.一种基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,首先对数据集进行处理,将数据集中的文档输入到编码器中获得每个单词的嵌入表示;在此之后,模型通过一种双通道的方式分别利用gcn和gat同时构建提及图和共指引用图,然后将共指引用图合并到体制图中形成提及共指图,再根据图中每个节点的信息,将指向同一实体的节点合并为一个实体节点构建实体图,根据实体图中节点之间的边对关系进行预测,最后根据预测的实体关系结果构建实体和关系的正负样本进行训练,从而得到最终的关系预测模型。

2.如权利要求1所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,具体包括:

3.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤二中,将文档表示为文档d,其中文档d包含n个句子,每个句子包含m个单词,并包含n个单词;从单词表中查找每个单词的表,将文档d中的单词表示输入到bert编码器中,生成每个单词的隐向量表示。

4.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤三中,将不同句子中的提及作为节点,同一句子中的提及连接作为提及图的边,不同句子的相同提及连接作为提及图的边;利用bert编码器输出的每个句子的总体信息作为句子的代表节点,连接每个句子中的所有实体;通过gcn模型融合每个提及节点的邻居节点信息,得到每个提及节点的更丰富表示。

5.如权利要求2所述的基于正负样本训练的图注意力文档级关系抽取方法,其特征在于,在步骤四中,定义一组链,包括多个最有可能形成共指词的span,表示指向同一提及...

【专利技术属性】
技术研发人员:辛君芳张南
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1