一种基于生成模型的文档级关系抽取方法技术

技术编号:43616587 阅读:19 留言:0更新日期:2024-12-11 14:59
本发明专利技术属于信息处理技术领域,具体涉及一种基于生成模型的文档级关系抽取方法,包括如下步骤:其一、训练阶段,采用生成模型对文档进行压缩和精炼,提取主体、客体在文档中的关系摘要,从而筛选出与目标紧密关联的信息;其二、测试阶段,引入轻量化的判别模块,把生成模型输出的关系摘要映射到预定义的关系类别上,还包括引导生成,生成模型具备自适应性学习能力,可以动态自主地学习人类精心挑选的示例,生成更贴近人类意图的输出,还包括引导生成。本发明专利技术精准捕捉并提炼出主体和客体在文档中的关系摘要,把关系摘要映射到预定义的关系类别上,实现了关系抽取的准确性与可控性的双重提升。

【技术实现步骤摘要】

本专利技术属于信息处理,具体涉及一种基于生成模型的文档级关系抽取方法


技术介绍

1、关系抽取是自然语言处理领域中的一项重要任务,旨在从自然语言文本中识别和提取实体及实体间的关系。这些关系可以是在文本中明确表述的,也可以是根据上下文推断出来的。具体来说,关系抽取就是从一段文本中抽取出主体、客体、关系这样的三元组。

2、根据文本的抽取范围,关系抽取可以划分为句子级关系抽取和文档级关系抽取,其中:

3、句子级关系抽取,专注于单个句子中的实体关系,需要处理和解析句子内部的语法和语义,但上下文范围相对受限;

4、文档级关系抽取,更关注多个句子及段落之间的实体关系,涉及跨句子的理解、长距离依赖关系分析,上下文范围更大;

5、在实际应用场景中,实体往往散布在文档的各个角落,实体间直接的关联关系、间接的因果关系、承接的时序关系等共同组成了复杂的实体关系网络。这就要求关系抽取算法具备跨句子的阅读和理解能力,能够从全局的角度识别和提取实体及实体之间的关系。因此,文档级关系抽取逐渐取代句子级关系抽取,成为关系抽取领域的研究重点和本文档来自技高网...

【技术保护点】

1.一种基于生成模型的文档级关系抽取方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤2中将拼接文档doc、主体sub、客体obj,作为G的输入:

3.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤2中G包含Masked Attention、Add&Norm、Feed Forward、Softmax,如下:

4.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤3中拼接摘要abs、主体sub、客体obj,作为C的输入:<...

【技术特征摘要】

1.一种基于生成模型的文档级关系抽取方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤2中将拼接文档doc、主体sub、客体obj,作为g的输入:

3.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤2中g包含masked attention、add&norm、feed forward、softmax,如下:

4.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤3中拼接摘要abs、主体sub、客体obj,作为c的输入:

5.根据权利要求1所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤3中c包含mean pool、softmax,如下:

6.根据权利要求5所述的一种基于生成模型的文档级关系抽取方法,其特征在于:所述步骤...

【专利技术属性】
技术研发人员:张小明洗俊宇张力天路明李翔周子奕
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1