融合增强实体与多级表示的文档级关系抽取制造技术

技术编号:44598491 阅读:26 留言:0更新日期:2025-03-14 12:54
本发明专利技术涉及文档级关系抽取技术领域,且公开了融合增强实体与多级表示的文档级关系抽取,预处理的目的是整合多个提及,获得实体的全局表示,对于长度为L的文档D,给定文档表示,其中x<subgt;t</subgt;表示位置t处的token(在自然语言处理中,token通常指的是文本中的最小语义单元,例如单词、子词或字符等),为标记实体,使用特殊标记"*"标明实体的起始和结束位置,通过预训练的BERT模型,获取文档D的上下文嵌入向量H。该融合增强实体与多级表示的文档级关系抽取,提出的MFDRE针对DocRE中的长距离依赖问题,提供有效解决方案,MFDRE利用预训练语言模型BERT获取文档内实体的全局表示,融合实体对局部表示与span扩展下的实体对补充表示,显著提升实体节点的表示能力。

【技术实现步骤摘要】

本专利技术涉及文档级关系抽取,具体为融合增强实体与多级表示的文档级关系抽取


技术介绍

1、文档级关系抽取(document-level relation extraction,docre)是自然语言处理领域中的一个重要任务,旨在从整篇文档中抽取并预测实体对之间的关系。与句子级关系抽取不同,文档级关系抽取需要处理跨句子的长距离依赖问题,这使得任务更加复杂和具有挑战性。为了应对这一挑战,近年来学术界提出了多种方法和模型,包括使用深度学习模型如gat、atlop、kd-bert等,以及融合图神经网络的各种增强模型。

2、然而,这些docre的方法在处理多层次的关系时仍存在不足,尤其在实体span扩展与提及的利用上。span指文本中与某个实体相关的连续子序列,即实体周围的上下文信息,而现有方法在span扩展上不足,这需要采用span扩展,以获取实体对增强表示。至于提及,是指文档内对实体的具体引用,记录实体的出现位置和表达方式,常通过名词、代词或同义词呈现。比如,在图1的docred数据集示例里,实体“kungliga hovkapelle”的提及包括本文档来自技高网...

【技术保护点】

1.融合增强实体与多级表示的文档级关系抽取,其特征在于,包括以下步骤:

2.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤S101中,H=[h1,h2,…hL]是token的隐藏状态表示,是实体ei的池化特征。

3.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤S102中,A(s,o)表示实体对(es,eo)的聚合注意力,q(s,o)∈Rl表示其平均注意力权重,H是公式(1)中的上下文嵌入向量,表示实体es的局部表示,Ws、Wc1是权重参数,Wo、Wc2是权重参数。

>4.根据权利要求1...

【技术特征摘要】

1.融合增强实体与多级表示的文档级关系抽取,其特征在于,包括以下步骤:

2.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤s101中,h=[h1,h2,…hl]是token的隐藏状态表示,是实体ei的池化特征。

3.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤s102中,a(s,o)表示实体对(es,eo)的聚合注意力,q(s,o)∈rl表示其平均注意力权重,h是公式(1)中的上下文嵌入向量,表示实体es的局部表...

【专利技术属性】
技术研发人员:李寅翀张南
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1