当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于“表格-图”两阶段的面向文档级别实体关系联合抽取方法及装置制造方法及图纸

技术编号:39586442 阅读:28 留言:0更新日期:2023-12-03 19:38
本发明专利技术涉及一种基于“表格

【技术实现步骤摘要】
一种基于“表格

图”两阶段的面向文档级别实体关系联合抽取方法及装置


[0001]本专利技术涉及自然语言处理领域,具体为一种使用神经网络模型在文档级别的长文本中联合抽取实体和关系的方法及装置


技术介绍

[0002]目前,随着互联网时代信息的爆炸性增长,出现了海量的文本数据

如何从这些大量的原始文本数据中,自动提取出有价值的结构化数据,是数据分析和信息抽取的重要课题

而其中,如何从长文本中高质量的抽取信息,也相较于短文本的设置更贴近现实场景,也更具挑战

[0003]在文档级别的长文本中,实体往往存在多个指代,因此,端到端的实体关系联合抽取往往可以分为三个子技术:指代抽取,即从文本中识别实体对应的文本;共指消解,即对于抽取的指代建立共指关系,形成实体集合;关系抽取,对于实体集合中的实体对,判断他们之间存在的关系

之前的技术方案主要以神经网络和预训练语言模型作为基础的特征提取器,并按照上述划分,以流水线的形式分别训练并预测各个子任务,抽取实体本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于“表格

图”两阶段的面向文档级别实体关系联合抽取方法,其特征在于,包括编码阶段和解码阶段;所述编码阶段包括:对待处理文本进行分词后,输入训练完成的序列标注模型,进行指代抽取;将指代输入训练完成的“表格

图”两阶段模型,预测得到共指分数和关系分数;所述解码阶段包括:利用共指分数和关系分数,使用层次聚类方法进行共指消解解码;对于层次聚类方法得到的实体簇,使用众数投票方法进行关系抽取解码
。2.
根据权利要求1所述的方法,其特征在于,所述序列标注模型用于指代抽取子任务,按照
BIO
的标注格式进行训练,以预测文本的
BIO
类别
。3.
根据权利要求1所述的方法,其特征在于,所述“表格

图”两阶段模型用于共指消解子任务和关系抽取子任务,将指代看作结点,所述共指消解子任务在指代对之间预测指代是否指向相同实体,即
0/1
分数;所述关系抽取子任务在指代对之间预测指代对应的实体之间的关系,即多分类任务
。4.
根据权利要求1所述的方法,其特征在于,所述“表格

图”两阶段模型包括:在表格阶段,首先使用
BERT
模型对原始文本进行特征提取,得到指代对应的表示,然后使用双仿射变换对每一个指代对预测共指分数和关系分数:在图阶段,将共指分数和关系分数作为以指代为结点的动态图上的边权重,构建对应的共指边和关系边;针对指代之间的语法结构,再静态构造语法边;对于得到的三种边和指代的原始表示,使用关系图神经网络
R

GCN
编码结点表示;利用关系图神经...

【专利技术属性】
技术研发人员:邹磊张若禹
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1