一种基于邻接矩阵的文档级别关系抽取方法和存储设备技术

技术编号：35001654 阅读：16 留言：0更新日期：2022-09-21 14:51

本申请涉及文档级别关系抽取技术领域，特别涉及一种基于邻接矩阵的文档级别关系抽取方法和存储设备。所述一种基于邻接矩阵的文档级别关系抽取方法，包括步骤：通过Transformer

全部详细技术资料下载

【技术实现步骤摘要】
一种基于邻接矩阵的文档级别关系抽取方法和存储设备

[0001]本申请涉及文档级别关系抽取
，特别涉及一种基于邻接矩阵的文档级别关系抽取方法和存储设备。

技术介绍

[0002]文档级别关系抽取旨在抽取一段文档中实体对之间的关系，文档级别关系抽取作为一种信息抽取方法，在构建大规模知识图谱中发挥着重要的作用。然后当前的关系抽取主要是面向句子级别的关系抽取，其目的是从一个句子中抽取实体对之间存在的某种关系。然而在现实应用中，大多数存在一定关系的实体对处于不同的句子，这使得文档级别关系抽取相对于句子级别关系抽取而言是一种相对而言更难的任务。
[0003]现有的文档级别关系抽取常存在以下缺点：
[0004]1、将注意力域内或者卷积域内所有的关系特征都融合到目标关系特征中，有些关系特征和目标关系特征的联系较为紧密，这些关系特征为目标关系特征提供了丰富的语义关系，可以帮助目标关系特征进行句内或者句间推理；但是同样也引入很多噪声，例如域内不存在关系的实体对关系特征，其作为一种噪声广泛存在与卷积域或者注意域中。
[0005]2、由于文档的长度普遍都超过BERT模型的编码范围，之前的方法均采用对长文本序列进行分割，然后再分别编码，这样虽然解决了BERT不能处理长文本的问题，但是这样会形成语义断层，即编码之后的段与段之间是存在较弱的语义联系。
[0006]3、以上两种方法对特征矩阵中不同实体对的特征进行融合的方法属于隐式融合，且具有较弱的目的性，主要是通过对大范围矩阵中的元素进行融合从而完成对相关关系特...

【技术保护点】

【技术特征摘要】
1.一种基于邻接矩阵的文档级别关系抽取方法，其特征在于，包括步骤：通过Transformer
‑
XL模型对文档级别的长文本进行建模；构建实体对关系特征矩阵；对具有关系的实体对分别建模为一个路径依赖树；根据所述依赖树生成具有一定关系实体对之间的邻接矩阵；根据所述邻接矩阵计算可见矩阵；通过自注意力机制对与目标实体对关系特征有关联的关系特征进行融合；根据融合后的特征矩阵计算实体对对应的关系的概率。2.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法，其特征在于，所述根据所述邻接矩阵计算可见矩阵，还包括：重复利用n
‑
1阶矩阵计算n阶邻接矩阵的步骤，直至n阶邻接矩阵中元素为1的两个关系特征之间符合预设条件；根据前n阶邻接矩阵计算得可见矩阵V：V＝A+A2+...+A
n
其中A代表一阶矩阵，A2代表二阶矩阵，A
n
代表n阶矩阵,n的取值为大于等于2的自然数。3.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法，其特征在于，所述通过加权注意对与目标关系特征有关联的关系特征进行融合，还包括：根据不同的关系特征之间的步数不同确定不同的权重，步数越长，权重越小。4.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法，其特征在于，所述依赖树的根节点为对应的实体对，第一层节点表示邻接矩阵中横向与纵向和该实体对直接联系的实体对关系特征表示。5.根据权利要求1所述的一种基于邻接矩阵的文档级别关系抽取方法，其特征在于，所述构建关系特征矩阵，还包括：计算文档中所有的实体嵌入表示，根据所述嵌入表示构建关系特征矩...

【专利技术属性】
技术研发人员：闾海荣，王天亨，李艳，石顺中，
申请(专利权)人：福州数据技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人