【技术实现步骤摘要】
一种基于长尾数据分布的文档级关系抽取方法
[0001]本专利技术涉及信息抽取和机器学习领域,具体涉及一种基于长尾数据分布的文档级关系抽取方法。
技术介绍
[0002]关系抽取在信息抽取中起着至关重要的作用,它旨在预测文本中实体的关系。早期的关系抽取工作主要集中在句子级的关系抽取,即从单个句子中预测实体关系,随着深度学习技术的发展,神经关系抽取方法已经在句子级关系抽取中取得了很好的成果。最近,关系抽取的研究已经发展到文档级关系抽取,这是一个比句子级关系抽取更实用、更具挑战性的场景。
[0003]在文档级关系抽取任务中,跨不同句子的实体对之间的关系模式往往更复杂,这些实体对之间的距离也比较长。因此,文档级关系抽取需要模型找出相关上下文并跨句子进行推理,而不是在单个句子中记住简单的实体关系模式。此外,在文档级关系抽取中,多个实体对共存于一个文档中,并且每个实体可能在句子中出现不止一次提及。因此,文档级关系抽取还要求模型一次从单个文档中提取多个实体对的关系。为了解决上述问题,近年来,基于深度学习的文档级关系抽取方法已经取得了
【技术保护点】
【技术特征摘要】
1.一种基于长尾数据分布的文档级关系抽取方法,其特征在于,包括以下步骤:步骤1:文档预处理在给定文档中标注所有实体,并在实体边界标注特殊字符作为该实体在文档中的一次提及;步骤2:文档编码将预处理后的文档作为预训练Transformer模型的输入,获取文档中所有字符的上下文语义表示作为向量编码,以及获取实体之间的自注意力矩阵;步骤3:关系编码遍历两两实体构成实体对;根据文档编码结果,计算文档中每一个实体的向量表示,以及实体对的池化上下文表示,构成三元向量组;在模型训练阶段,需要标注每一个实体对的所属关系标签,并执行步骤4;在实际预测阶段,直接执行步骤5;步骤4:数据增广针对带标签的三元向量组集合,随机选取或者预设需要进行增广的关系类型,设计掩码向量,对待进行数据增广的原始三元向量组中的池化上下文表示进行扰动,生成新的三元向量组;将原始三元向量组集合与数据增广得到的三元向量组集合作为训练集,训练得到文档级关系抽取模型;步骤5:关系预测采用步骤1
‑
3中的方法对给定文档进行预处理、文档编码和关系编码,利用训练好的文档级关系抽取模型对得到的三元向量组进行关系预测,输出存在有效关系的实体对及其所属关系。2.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的预训练Transformer模型采用BERT模型。3.根据权利要求2所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤2具体为:将已标注实体及提及的文档输入BERT模型中,获得文档中所有字符的上下文语义表示H,以及自注意力矩阵A;表示为:其中,表示词序列长度为l的文档,w
l
表示文档中的第l个字符;Ptr(.)代表预训练的BERT模型,H为BERT模型最后一层输出的词向量,为文档中所有字符的上下文语义表示;A为BERT模型最后一层中的自注意力矩阵。4.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤3具体为:3.1)遍历两两实体构成实体对;3.2)根据文档编码结果,计算文档中每一个实体的向量表示:其中,e
i
表示第i个实体的向量表示,m
ij
表示第i个实体在文档中第j次提及的向量表示,即该提及左边界的特殊字符对应的词向量,通过索引步骤2中的文档中所有字符的上下
文语义表示获得;m表示第i个实体在文档中提及的次数;将实体对中的第一个实体称为头实体e_h,将头实体向量记为e
h
,实体对中的第二个实体称为尾实体e_t,将尾实体向量记为e
t
;3.3)计算实体对的池化上下文表示:针对实体对(e_h,e_t),通过下两式得到该实体对的池化上下文表示c
h,t
:A
h,t
=A
h
*A
t
其中,A
h,t
是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积;A
h
是头实体e_h对文档中所有词的注意力分数,A
t
是尾实体e_t对文档中所有词的注意力分数,H是文档中所有字符的上下文语义表示;3.4)对于实体对(e_h,e_t),其三元向量组表示为T
h,t
=(e
h
,c
h,t
,e
t
),得到所有三元向量组表示集合ε表示实体集合。5.根据权利要求1所述的基于长尾数据分布的文档级关系抽取方法,其特征在于,所述的步骤4具体为:4.1)设定需要进行数据增强的关系类型集合R为所有的关系类型集合;4.2)给定一个实体对(e_h,e_t),若其关系从中索引原始三元向量组表示(e
h
,c
h,t
,e
t
);首先随机生成一个掩码向量p,该掩码向量的每一个维度由参数为p的伯努力分布生成;然后将该掩码向量p与A
h,t
点乘,对其施加掩码操作,公式为:A
′
h,t
=p*A
h,t
其中,A
h,t
是头实体e_h和尾实体e_t对文档中所有词的注意力分数的乘积,A
′
h,t
是掩码后的注意力分数;经过扰动后的上下文表示向量c
′
h,t
的计算公式为:其中,上角标T表示转置;生成新的三元向量组表示(e
h
,c
′
h,t...
【专利技术属性】
技术研发人员:纪守领,杜扬恺,伍一鸣,张旭鸿,祝羽艳,陈建海,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。