【技术实现步骤摘要】
本专利技术涉及文档级关系抽取,具体为融合增强实体与多级表示的文档级关系抽取。
技术介绍
1、文档级关系抽取(document-level relation extraction,docre)是自然语言处理领域中的一个重要任务,旨在从整篇文档中抽取并预测实体对之间的关系。与句子级关系抽取不同,文档级关系抽取需要处理跨句子的长距离依赖问题,这使得任务更加复杂和具有挑战性。为了应对这一挑战,近年来学术界提出了多种方法和模型,包括使用深度学习模型如gat、atlop、kd-bert等,以及融合图神经网络的各种增强模型。
2、然而,这些docre的方法在处理多层次的关系时仍存在不足,尤其在实体span扩展与提及的利用上。span指文本中与某个实体相关的连续子序列,即实体周围的上下文信息,而现有方法在span扩展上不足,这需要采用span扩展,以获取实体对增强表示。至于提及,是指文档内对实体的具体引用,记录实体的出现位置和表达方式,常通过名词、代词或同义词呈现。比如,在图1的docred数据集示例里,实体“kungliga hovkap
...【技术保护点】
1.融合增强实体与多级表示的文档级关系抽取,其特征在于,包括以下步骤:
2.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤S101中,H=[h1,h2,…hL]是token的隐藏状态表示,是实体ei的池化特征。
3.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤S102中,A(s,o)表示实体对(es,eo)的聚合注意力,q(s,o)∈Rl表示其平均注意力权重,H是公式(1)中的上下文嵌入向量,表示实体es的局部表示,Ws、Wc1是权重参数,Wo、Wc2是权重参数。
【技术特征摘要】
1.融合增强实体与多级表示的文档级关系抽取,其特征在于,包括以下步骤:
2.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤s101中,h=[h1,h2,…hl]是token的隐藏状态表示,是实体ei的池化特征。
3.根据权利要求1所述的融合增强实体与多级表示的文档级关系抽取,其特征在于,所述步骤s102中,a(s,o)表示实体对(es,eo)的聚合注意力,q(s,o)∈rl表示其平均注意力权重,h是公式(1)中的上下文嵌入向量,表示实体es的局部表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。