本发明专利技术涉及一种基于“表格
【技术实现步骤摘要】
一种基于“表格
‑
图”两阶段的面向文档级别实体关系联合抽取方法及装置
[0001]本专利技术涉及自然语言处理领域,具体为一种使用神经网络模型在文档级别的长文本中联合抽取实体和关系的方法及装置
。
技术介绍
[0002]目前,随着互联网时代信息的爆炸性增长,出现了海量的文本数据
。
如何从这些大量的原始文本数据中,自动提取出有价值的结构化数据,是数据分析和信息抽取的重要课题
。
而其中,如何从长文本中高质量的抽取信息,也相较于短文本的设置更贴近现实场景,也更具挑战
。
[0003]在文档级别的长文本中,实体往往存在多个指代,因此,端到端的实体关系联合抽取往往可以分为三个子技术:指代抽取,即从文本中识别实体对应的文本;共指消解,即对于抽取的指代建立共指关系,形成实体集合;关系抽取,对于实体集合中的实体对,判断他们之间存在的关系
。
之前的技术方案主要以神经网络和预训练语言模型作为基础的特征提取器,并按照上述划分,以流水线的形式分别训练并预测各个子任务,抽取实体和关系
。
为了共用不同子任务之间的有益信息,也有技术方案提出使用多任务模型联合建模,在各个子任务之间共用基础特征提取器
(Markus Eberts and Adrian Ulges.2021.An end
‑
to
‑
end model for entity
‑
level relation extraction using multi
‑
instance learning.In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics:Main Volume,pages3650
–
3660,Online.Association for Computational Linguistics.)。
但是,上述方案仍然不能克服流水线模式的错误累积
(error propagation)
问题,在解码过程中,之前子任务的错误会引发后续的级联错误,从而极大程度上影响模型的精度
。
技术实现思路
[0004]为了克服现有的技术方案中的错误累积问题,本专利技术提供一种面向文档级别实体关系联合抽取的“表格
‑
图”两阶段生成方法及装置,可以在长文本中有效地抽取包括实体和关系在内的结构化信息
。
[0005]本专利技术采用的技术方案如下:
[0006]一种基于“表格
‑
图”两阶段的面向文档级别实体关系联合抽取方法,包括编码阶段和解码阶段;
[0007]所述编码阶段包括:
[0008]对待处理文本进行分词后,输入训练完成的序列标注模型,进行指代抽取;
[0009]将指代输入训练完成的“表格
‑
图”两阶段模型,预测得到共指分数和关系分数;
[0010]所述解码阶段包括:
[0011]利用共指分数和关系分数,使用层次聚类方法进行共指消解解码;
[0012]对于层次聚类方法得到的实体簇,使用众数投票方法进行关系抽取解码
。
[0013]进一步地,所述序列标注模型用于指代抽取子任务,按照
BIO
的标注格式进行训练,以预测文本的
BIO
类别
。
[0014]进一步地,所述“表格
‑
图”两阶段模型用于共指消解子任务和关系抽取子任务,将指代看作结点,所述共指消解子任务在指代对之间预测指代是否指向相同实体,即
0/1
分数;所述关系抽取子任务在指代对之间预测指代对应的实体之间的关系,即多分类任务
。
[0015]进一步地,所述“表格
‑
图”两阶段模型包括:
[0016]在表格阶段,首先使用
BERT
模型对原始文本进行特征提取,得到指代对应的表示,然后使用双仿射变换对每一个指代对预测共指分数和关系分数:
[0017]在图阶段,将共指分数和关系分数作为以指代为结点的动态图上的边权重,构建对应的共指边和关系边;针对指代之间的语法结构,再静态构造语法边;对于得到的三种边和指代的原始表示,使用关系图神经网络
R
‑
GCN
编码结点表示;
[0018]利用关系图神经网络
R
‑
GCN
得到的结点表示,再次使用双仿射变换预测最终的共指分数和关系分数
。
[0019]进一步地,所述层次聚类方法在计算不同簇之间的距离时,考虑两部分:一部分是在编码阶段最终预测的共指分数,一部分是以关系分数计算得到的惩罚项;将该两部分的加权和作为簇间距离
。
[0020]进一步地,使用指代的关系向量之间的汉明距离作为所述惩罚项
。
[0021]进一步地,所述使用众数投票方法进行关系抽取解码,包括:给定目标实体对,检查实体对之间所有的指代对的关系预测结果,并将投票超过半数的关系作为实体对之间的预测关系
。
[0022]一种基于“表格
‑
图”两阶段的面向文档级别实体关系联合抽取系统,包括编码模块和解码模块;
[0023]所述编码模块对待处理文本进行分词后,输入训练完成的序列标注模型,进行指代抽取,并将指代输入训练完成的“表格
‑
图”两阶段模型,预测得到共指分数和关系分数;
[0024]所述解码阶段利用共指分数和关系分数,使用层次聚类方法进行共指消解解码,并对于层次聚类方法得到的实体簇,使用众数投票方法进行关系抽取解码
。
[0025]本专利技术的有益效果如下:
[0026]本专利技术在编码和解码两方面的针对性设计
(“表格
‑
图”两阶段模型和层次聚类方法
)
可以有效缓解共指消解和关系抽取这两个子任务之间的错误累积问题,并促进不同子任务之间的语义交换,从而改善信息抽取表现
。
附图说明
[0027]图1是本专利技术的任务说明图,文档级别关系抽取需要从长文本中抽取指代
、
实体和关系
。
[0028]图2是本专利技术的编码部分流程图,主要展示“表格
‑
图”模型的编码流程
。
具体实施方式
[0029]为使本专利技术的上述目的
、
特征和优点能够更加明显易懂,下面通过具体实施例和
附图,对本专利技术做进一步详细说明
。
[0030]本专利技术方法主要可以分编码和解码两阶段
。
编码阶段的主要步骤包括:
[0031]本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.
一种基于“表格
‑
图”两阶段的面向文档级别实体关系联合抽取方法,其特征在于,包括编码阶段和解码阶段;所述编码阶段包括:对待处理文本进行分词后,输入训练完成的序列标注模型,进行指代抽取;将指代输入训练完成的“表格
‑
图”两阶段模型,预测得到共指分数和关系分数;所述解码阶段包括:利用共指分数和关系分数,使用层次聚类方法进行共指消解解码;对于层次聚类方法得到的实体簇,使用众数投票方法进行关系抽取解码
。2.
根据权利要求1所述的方法,其特征在于,所述序列标注模型用于指代抽取子任务,按照
BIO
的标注格式进行训练,以预测文本的
BIO
类别
。3.
根据权利要求1所述的方法,其特征在于,所述“表格
‑
图”两阶段模型用于共指消解子任务和关系抽取子任务,将指代看作结点,所述共指消解子任务在指代对之间预测指代是否指向相同实体,即
0/1
分数;所述关系抽取子任务在指代对之间预测指代对应的实体之间的关系,即多分类任务
。4.
根据权利要求1所述的方法,其特征在于,所述“表格
‑
图”两阶段模型包括:在表格阶段,首先使用
BERT
模型对原始文本进行特征提取,得到指代对应的表示,然后使用双仿射变换对每一个指代对预测共指分数和关系分数:在图阶段,将共指分数和关系分数作为以指代为结点的动态图上的边权重,构建对应的共指边和关系边;针对指代之间的语法结构,再静态构造语法边;对于得到的三种边和指代的原始表示,使用关系图神经网络
R
‑
GCN
编码结点表示;利用关系图神经...
【专利技术属性】
技术研发人员:邹磊,张若禹,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。