当前位置: 首页 > 专利查询>复旦大学专利>正文

基于对比学习的文本摘要框架构建方法技术

技术编号:38707922 阅读:20 留言:0更新日期:2023-09-08 14:48
本发明专利技术提供一种基于对比学习的文本摘要框架构建方法,由于评价指标优化是一个不可直接优化的目标,因此,本发明专利技术的方法使用基于正负样本的对比学习来让文本摘要模型学习区分高质量与低质量的样本,从而使得生成的文本摘要与原文相符且通顺流畅,本发明专利技术的方法适用于抽取式以及生成式的自动文本摘要,该方法是端到端的,几乎不影响最终的解码速度,因此,构建出的是高效且统一的文本摘要框架。出的是高效且统一的文本摘要框架。出的是高效且统一的文本摘要框架。

【技术实现步骤摘要】
基于对比学习的文本摘要框架构建方法


[0001]本专利技术属于深度学习以及自然语言处理
,具体涉及一种基于对比学习的文本摘要框架构建方法。

技术介绍

[0002]自动文本摘要(Automatic Text Summarization)任务是自然语言处理(NLP)中的一类基础任务,自动文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。按照输出类型可分为抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive Summarization)。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。
[0003]主流的抽取式摘要模型主要以句子为单位进行抽取,该方法的优点是事实一致性,缺点是输出离散的句子,不具备通顺和流畅性,与人工写的摘要相差甚远。生成式摘要的主流模型是序列到序列模型由一个编码器和解码器组成,编码器用于编码输入的文档,解码器用于生成摘要。生成方法最明显的优点是语句连贯,缺点是可能会生成出一些无关或原文不相符的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的文本摘要框架构建方法,其特征在于,包括以下步骤:步骤S1,选定文档的表示作为锚点;步骤S2,选定摘要评价指标,用于选取正样本和负样本;步骤S3,对文本摘要模型进行预热;步骤S4,将所述文档输入预热后的所述文本摘要模型,生成多个候选摘要;步骤S5,使用选定的所述摘要评价指标对生成的多个所述候选摘要进行排序,并根据预定的阈值得到所述正样本和所述负样本;步骤S6,加入对比学习的损失函数,采用所述正样本和所述负样本对预热后的所述文本摘要模型进行训练,得到训练完成的所述文本摘要模型。2.根据权利要求1所述的基于对比学习的文本摘要框架构建方法,其特征在于:其中,步骤S2中,所述摘要评价指标为ROUGE或BERTScore。3.根据权利要求1所述的基于对比学习的文本摘要框架构建方法,其特征在于:其中,所述文本摘要模型为生成式模型。4.根据权利要求3所述的基于对比学习的文本摘要模型,其特征在于:其中,所述文本摘要模型为BART,步骤S4中,使用多样性集束搜索让所述文本摘要模型生成多个所述候选摘要,对每个所述候选摘要,取所述文本摘要模型的解码器最后一层的最后一步的输出隐向量作为该候选摘要的特征表示。5.根据权利要求1所述的基于对比学习的文本摘要框架构建方法,其特征在于:其中,所述文本摘要模型为抽取式模型。6.根据权利要求5所述的基于对比学习的文本摘要框架构建方法,其特征在于:其中,所述文档包含有N个句子,所述文本摘要模型使用BART的编码器和多层感知机来实现,步骤S4中,选择所述多层感知机输出的最优的N

个所述句子来执行特征组合...

【专利技术属性】
技术研发人员:邱锡鹏安晨鑫
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1