一种基于数据增强和两阶段训练的摘要忠实度评价方法技术

技术编号:44826028 阅读:13 留言:0更新日期:2025-03-28 20:17
一种基于数据增强和两阶段训练的摘要忠实度评价方法,首先,应用三种数据增强方法(实体替换、同主题相似检索、外插掩码填充)从文本摘要数据集中提取训练数据。实体替换(ES)将单句中的实体替换为相同类别、不同名称的其他实体,以此作为负面摘要。同主题相似检索(S3T)根据主题将数据集中的文章进行分组,并在同主题文章中筛选出语义相近的单句,作为不忠实摘要。外插掩码填充(IFEM)在单句中插入额外掩码并进行填充,生成与原文内容相关但不忠实的负面摘要。其次,充分利用文本摘要数据集的信息,分两个阶段对系统进行多任务联合训练。第一阶段使用基于原文提取的训练数据,训练系统掌握对基础事实一致性的判断能力;第二阶段使用基于参考摘要提取的训练数据,提升系统在复杂语境下的忠实度评估能力。本发明专利技术通过改进负面摘要构建方式和充分利用数据集信息,显著提升了系统的忠实度评估能力,为自动文本摘要的实际应用提供了强有力的技术支持。

【技术实现步骤摘要】

本专利技术属于自然语言处理,涉及一种基于数据增强和两阶段训练的摘要忠实度评价方法,该方法基于数据增强和两阶段训练机制,旨在评估生成式文本摘要相对于原文的忠实度。


技术介绍

1、随着互联网的迅猛发展,信息呈爆炸式增长,文本摘要技术应运而生,旨在帮助用户快速获取文章核心内容,节省时间。文本摘要是指从原始文本中提取关键信息,生成一个简洁、连贯且包含主要观点的短文本的过程。根据摘要生成的方法,文本摘要可分为抽取式和生成式。由于生成式方法更贴近人工生成摘要的过程,且在语法准确度和语义连贯性方面比抽取式方法更有优势,因此受到越来越多的重视。近年来,随着大规模数据集的可用性和预训练模型的日益成熟,生成式文本摘要研究取得了重大进展。然而,研究发现,生成式摘要模型生成的摘要中高达30%存在与原文事实不一致的情况,这严重阻碍了自动文本摘要在实际场景中的应用。因此,评估文本摘要相对于原文的忠实度是一个亟待解决的问题。

2、目前,还没有用于忠实度评估的监督训练数据集。人工创建大规模、高质量的数据集成本高昂且非常耗时。因此,一些研究者采用弱监督方法,通过数据增强构建合成本文档来自技高网...

【技术保护点】

1.一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于步骤如下:

2.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S1具体包括:

3.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S2具体包括:

4.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S3具体包括:利用基于原文构建的训练数据对系统进行第一阶段的训练;

5.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S4具体包...

【技术特征摘要】

1.一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于步骤如下:

2.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s1具体包括:

3.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s2具体包括:

4.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s3具体包括:利用基于原文构建的训练数据对系统进行第一阶段的训练;

5.根据...

【专利技术属性】
技术研发人员:黄德根赵金爽
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1