一种基于邻接矩阵的文档级别关系抽取方法和存储设备技术

技术编号:35001654 阅读:16 留言:0更新日期:2022-09-21 14:51
本申请涉及文档级别关系抽取技术领域,特别涉及一种基于邻接矩阵的文档级别关系抽取方法和存储设备。所述一种基于邻接矩阵的文档级别关系抽取方法,包括步骤:通过Transformer

【技术实现步骤摘要】
一种基于邻接矩阵的文档级别关系抽取方法和存储设备


[0001]本申请涉及文档级别关系抽取
,特别涉及一种基于邻接矩阵的文档级别关系抽取方法和存储设备。

技术介绍

[0002]文档级别关系抽取旨在抽取一段文档中实体对之间的关系,文档级别关系抽取作为一种信息抽取方法,在构建大规模知识图谱中发挥着重要的作用。然后当前的关系抽取主要是面向句子级别的关系抽取,其目的是从一个句子中抽取实体对之间存在的某种关系。然而在现实应用中,大多数存在一定关系的实体对处于不同的句子,这使得文档级别关系抽取相对于句子级别关系抽取而言是一种相对而言更难的任务。
[0003]现有的文档级别关系抽取常存在以下缺点:
[0004]1、将注意力域内或者卷积域内所有的关系特征都融合到目标关系特征中,有些关系特征和目标关系特征的联系较为紧密,这些关系特征为目标关系特征提供了丰富的语义关系,可以帮助目标关系特征进行句内或者句间推理;但是同样也引入很多噪声,例如域内不存在关系的实体对关系特征,其作为一种噪声广泛存在与卷积域或者注意域中。
[0005]2、由于文档的长度普遍都超过BERT模型的编码范围,之前的方法均采用对长文本序列进行分割,然后再分别编码,这样虽然解决了BERT不能处理长文本的问题,但是这样会形成语义断层,即编码之后的段与段之间是存在较弱的语义联系。
[0006]3、以上两种方法对特征矩阵中不同实体对的特征进行融合的方法属于隐式融合,且具有较弱的目的性,主要是通过对大范围矩阵中的元素进行融合从而完成对相关关系特征的融合。这样方法具有较大的计算开销,且融合效果较差。这种方法是阻碍模型性能提升的一个重要因素。

技术实现思路

[0007]鉴于上述问题,本申请提供了一种基于邻接矩阵的文档级别关系抽取方法,用以解决
技术介绍
中所提及的技术问题。具体技术方案如下:
[0008]一种基于邻接矩阵的文档级别关系抽取方法,包括步骤:
[0009]通过Transformer

XL模型对文档级别的长文本进行建模;
[0010]构建实体对关系特征矩阵;
[0011]对具有关系的实体对分别建模为一个路径依赖树;
[0012]根据所述依赖树生成具有一定关系实体对之间的邻接矩阵;
[0013]根据所述邻接矩阵计算可见矩阵;
[0014]通过自注意力机制对与目标实体对关系特征有关联的关系特征进行融合;
[0015]根据融合后的特征矩阵计算实体对对应的关系的概率。
[0016]进一步的,所述根据所述邻接矩阵计算可见矩阵,还包括:
[0017]重复利用n

1阶矩阵计算n阶邻接矩阵的步骤,直至n阶邻接矩阵中元素为1的两个
关系特征之间符合预设条件;
[0018]根据前n阶邻接矩阵计算得可见矩阵V:
[0019]V=A+A2+...+A
n
[0020]其中A代表一阶矩阵,A2代表二阶矩阵,A
n
代表n阶矩阵,n的取值为大于等于2的自然数。
[0021]进一步的,所述通过加权注意对与目标关系特征有关联的关系特征进行融合,还包括:
[0022]根据不同的关系特征之间的步数不同确定不同的权重,步数越长,权重越小。
[0023]进一步的,所述依赖树的根节点为对应的实体对,第一层节点表示邻接矩阵中横向与纵向和该实体对直接联系的实体对关系特征表示。
[0024]进一步的,所述构建关系特征矩阵,还包括:
[0025]计算文档中所有的实体嵌入表示,根据所述嵌入表示构建关系特征矩阵。
[0026]为解决上述技术问题,还提供了一种存储设备,具体技术方案如下:
[0027]一种存储设备,其中存储有指令集,所述指令集用于执行:
[0028]通过Transformer

XL模型对文档级别的长文本进行建模;
[0029]构建实体对关系特征矩阵;
[0030]对具有关系的实体对分别建模为一个路径依赖树;
[0031]根据所述依赖树生成具有一定关系实体对之间的邻接矩阵;
[0032]根据所述邻接矩阵计算可见矩阵;
[0033]通过自注意力机制对与目标实体对关系特征有关联的关系特征进行融合;
[0034]根据融合后的特征矩阵计算实体对对应的关系的概率。
[0035]进一步的,所述指令集还用于执行:所述根据所述邻接矩阵计算可见矩阵,还包括:
[0036]重复利用n

1阶矩阵计算n阶邻接矩阵的步骤,直至n阶邻接矩阵中元素为1的两个关系特征之间符合预设条件;
[0037]根据前n阶邻接矩阵计算得可见矩阵V:
[0038]V=A+A2+...+A
n
[0039]其中A代表一阶矩阵,A2代表二阶矩阵,A
n
代表n阶矩阵,n的取值为大于等于2的自然数。
[0040]进一步的,所述指令集还用于执行:
[0041]所述通过加权注意对与目标关系特征有关联的关系特征进行融合,还包括:
[0042]根据不同的关系特征之间的步数不同确定不同的权重,步数越长,权重越小。
[0043]进一步的,所述依赖树的根节点为对应的实体对,第一层节点表示邻接矩阵中横向与纵向和该实体对直接联系的实体对关系特征表示。
[0044]进一步的,所述指令集还用于执行:
[0045]所述构建关系特征矩阵,还包括:
[0046]计算文档中所有的实体嵌入表示,根据所述嵌入表示构建关系特征矩阵。
[0047]本专利技术的有益效果是:一种基于邻接矩阵的文档级别关系抽取方法,包括步骤:通过Transformer

XL模型对文档级别的长文本进行建模;构建实体对关系特征矩阵;对具有
关系的实体对分别建模为一个路径依赖树;根据所述依赖树生成具有一定关系实体对之间的邻接矩阵;根据所述邻接矩阵计算可见矩阵;通过自注意力机制对与目标实体对关系特征有关联的关系特征进行融合;根据融合后的特征矩阵计算实体对对应的关系的概率。上述方法中采用Transformer

XL模型对文档中的长文本序列进行建模,保证各个分段之间的文本具有语义联系,并且对于建模文本长度没有上限。可以有效避免因为BERT建模而造成的语义断层。且采用邻接矩阵的方法捕获不同步数的特征,目的性建模明确,并且只对具有一定关系的实体对进行建模而抛弃不具有关系的实体对,这样可以避免引入噪声,从而影响模型的性能。只对具有一定关系的实体对进行建模可以有效降低计算复杂度,从而提升模型的训练和推理速度。
[0048]上述
技术实现思路
相关记载仅是本申请技术方案的概述,为了让本领域普通技术人员能够更清楚地了解本申请的技术方案,进而可以依据说明书的文字及附图记载的内容予以实施,并且为了让本申请的上述目的及其它目的、特征和优点能够更易于理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于邻接矩阵的文档级别关系抽取方法,其特征在于,包括步骤:通过Transformer

XL模型对文档级别的长文本进行建模;构建实体对关系特征矩阵;对具有关系的实体对分别建模为一个路径依赖树;根据所述依赖树生成具有一定关系实体对之间的邻接矩阵;根据所述邻接矩阵计算可见矩阵;通过自注意力机制对与目标实体对关系特征有关联的关系特征进行融合;根据融合后的特征矩阵计算实体对对应的关系的概率。2.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法,其特征在于,所述根据所述邻接矩阵计算可见矩阵,还包括:重复利用n

1阶矩阵计算n阶邻接矩阵的步骤,直至n阶邻接矩阵中元素为1的两个关系特征之间符合预设条件;根据前n阶邻接矩阵计算得可见矩阵V:V=A+A2+...+A
n
其中A代表一阶矩阵,A2代表二阶矩阵,A
n
代表n阶矩阵,n的取值为大于等于2的自然数。3.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法,其特征在于,所述通过加权注意对与目标关系特征有关联的关系特征进行融合,还包括:根据不同的关系特征之间的步数不同确定不同的权重,步数越长,权重越小。4.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法,其特征在于,所述依赖树的根节点为对应的实体对,第一层节点表示邻接矩阵中横向与纵向和该实体对直接联系的实体对关系特征表示。5.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法,其特征在于,所述构建关系特征矩阵,还包括:计算文档中所有的实体嵌入表示,根据所述嵌入表示构建关系特征矩...

【专利技术属性】
技术研发人员:闾海荣王天亨李艳石顺中
申请(专利权)人:福州数据技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1