【技术实现步骤摘要】
本专利技术属于自然语言处理,涉及一种基于数据增强和两阶段训练的摘要忠实度评价方法,该方法基于数据增强和两阶段训练机制,旨在评估生成式文本摘要相对于原文的忠实度。
技术介绍
1、随着互联网的迅猛发展,信息呈爆炸式增长,文本摘要技术应运而生,旨在帮助用户快速获取文章核心内容,节省时间。文本摘要是指从原始文本中提取关键信息,生成一个简洁、连贯且包含主要观点的短文本的过程。根据摘要生成的方法,文本摘要可分为抽取式和生成式。由于生成式方法更贴近人工生成摘要的过程,且在语法准确度和语义连贯性方面比抽取式方法更有优势,因此受到越来越多的重视。近年来,随着大规模数据集的可用性和预训练模型的日益成熟,生成式文本摘要研究取得了重大进展。然而,研究发现,生成式摘要模型生成的摘要中高达30%存在与原文事实不一致的情况,这严重阻碍了自动文本摘要在实际场景中的应用。因此,评估文本摘要相对于原文的忠实度是一个亟待解决的问题。
2、目前,还没有用于忠实度评估的监督训练数据集。人工创建大规模、高质量的数据集成本高昂且非常耗时。因此,一些研究者采用弱监督方法,
...【技术保护点】
1.一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于步骤如下:
2.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S1具体包括:
3.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S2具体包括:
4.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述S3具体包括:利用基于原文构建的训练数据对系统进行第一阶段的训练;
5.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征
...【技术特征摘要】
1.一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于步骤如下:
2.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s1具体包括:
3.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s2具体包括:
4.根据权利要求1所述的一种基于数据增强和两阶段训练的摘要忠实度评价方法,其特征在于,所述s3具体包括:利用基于原文构建的训练数据对系统进行第一阶段的训练;
5.根据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。