一种基于语义匹配和改进交叉编码模型的文本摘要方法技术

技术编号：37447548 阅读：13 留言：0更新日期：2023-05-06 09:19

本发明专利技术设计了一种基于语义匹配和改进交叉编码模型的文本摘要方法，属于自然语言处理领域；获取候选摘要，并基于ROUGE评价指标对其进行降序排序；设计训练一个匹配模型，对候选摘要进行打分，选择分数最高的候选摘要作为文本摘要模型的最终输出，并且使用排序损失函数，不断优化匹配模型，使模型能够识别出最匹配的候选摘要；本发明专利技术沿用两阶段框架，从多个方面对匹配阶段做出改进，充分获取候选摘要和文档之间的细粒度的语义交互信息，从而在匹配阶段更准确地计算候选摘要和文档的语义相似性，实验表明本发明专利技术在文本摘要任务中具有很好的性能。的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义匹配和改进交叉编码模型的文本摘要方法

[0001]本专利技术属于自然语言处理领域，尤其涉及一种基于语义匹配和改进交叉编码模型的文本摘要方法。

技术介绍

[0002]自动文本摘要通过机器去理解文本含义，可以快速从冗余的文本中总结出关键信息。在实际应用中，文本摘要技术能够用来进行新闻标题的生成、学术文献摘要的生成、商品评论摘要的生成等。此外它也是问答系统、搜索引擎系统的技术支撑。生成式摘要由于包含更多文本底层的处理方法，比如文本理解、句子改写、同义词转换等，所以更困难，但却因为更符合人工编写摘要的方式，因此更有前景，特别是是随着深度学习和大规模数据集的出现，生成式摘要已经成为自动文本摘要领域的研究重点。生成式文本摘要主要基于带注意力机制的Seq2Seq框架，可以使用RNN、CNN、Transformers构建模型。近年来，随着预训练任务的提出，越来越多使用预训练语言模型的文本摘要模型被提出来，通过使用预训练语言模型的语言能力，文本摘要任务取得了前沿的进展。
[0003]然而传统的生成式模型使用束搜索算法生成一篇摘要，束搜索算法容易导致非最优的输出结果。另外，由于模型在最大似然估计下采用教师强迫的方式进行训练，因此存在目标函数与评价指标不一致的问题。其中，训练目标为生成摘要和参考摘要的令牌级损失，评价指标为生成摘要和文档的全局相似度。先“生成”再“匹配”的两阶段框架，通过生成多个候选摘要，然后从中选出最佳的一个，缓解了上述两个问题。SimCLS模型遵循了两阶段框架的范式，将文本摘要任务的性能提升到了一个...

【技术保护点】

【技术特征摘要】
1.一种基于语义匹配和改进交叉编码模型的文本摘要方法，其特征在于，具体包括以下步骤：步骤1：采用生成模型g(
·
)，所述g(
·
)是一个序列到序列模型，通过最小化生成摘要S和参考摘要的负对数似然对其进行训练；步骤2：用步骤1预训练的模型g(
·
)生成多个候选摘要S
i
，S
i
∈S1，...，S
n
，其中n是候选摘要的数量；n取大于等于1的整数；步骤3：将生成的多个候选摘要按照ROUGE评价指标进行降序排序；步骤4：设计一个匹配模型h(
·
)，分别为不同的候选摘要打分，然后选择分数最高的候选摘要作为文本摘要模型的最终输出；步骤5：在上述训练过程中，使用排序损失函数L
rank
学习真实评价指标的排序方式，完成对步骤3中提出的匹配模型h(
·
)的训练，使模型能够识别出最匹配的候选摘要。2.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法，其特征在于，步骤4具体为：步骤4.1：使用语义匹配任务中的交叉编码模型cross
‑
encoder对公开数据集中文档D和候选摘要S
i
进行交叉编码；首先将文档D和候选摘要S
i
拼接成一个单一的长文本；然后将其喂到语义交互模型t(
·
)中，经过模型t(
·
)的编码后取第一个词[cls]的嵌入向量作为候选者
‑
文档的最终表示向量；所述语义交互模型t(
·
)是基于Transformer结构的编码器，使用预训练自注意力模型RoBERTa对其参数进行初始化，用来编码S
i
和D，最终得到S
i
和D的相似度得分；步骤4.2：选取得分最高的候选摘要作为文本摘要模型最终生成的摘要S。3.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法，其特征在于，步骤4.1具体为：特征在于，步骤4.1具体为：特征在于，步骤4.1具体为：其中，第一个词[cls]是一个额外的输入，目的是让语义交互模型学习到候选者
‑
文档的交互表示信息，[sep]是不同文本间的分割符；Pooling(
·
)函数选择的第一个向量作为最终表示信息；线性层W1各向量转化成一个标量，用来表示文档D和候选摘要S
i
的相似度；考虑到候选摘要匹配与语义匹配任务本质上的区别，提出两个策略辅助模型对匹配模型h(
·
)进行训练。4.根据权利要求3所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法，其特征在于，所述第一个策略具体为：由于步骤2生成的多个候选摘要是由同一个文档获取的，所以它们之间相似度很高，为了让匹配模型h(
·
)获取到不同候选摘要之间的区别，直接使用每一个候选摘要S

【专利技术属性】
技术研发人员：魏景琦，姜琳颖，
申请(专利权)人：东北大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人