【技术实现步骤摘要】
一种基于语义匹配和改进交叉编码模型的文本摘要方法
[0001]本专利技术属于自然语言处理领域,尤其涉及一种基于语义匹配和改进交叉编码模型的文本摘要方法。
技术介绍
[0002]自动文本摘要通过机器去理解文本含义,可以快速从冗余的文本中总结出关键信息。在实际应用中,文本摘要技术能够用来进行新闻标题的生成、学术文献摘要的生成、商品评论摘要的生成等。此外它也是问答系统、搜索引擎系统的技术支撑。生成式摘要由于包含更多文本底层的处理方法,比如文本理解、句子改写、同义词转换等,所以更困难,但却因为更符合人工编写摘要的方式,因此更有前景,特别是是随着深度学习和大规模数据集的出现,生成式摘要已经成为自动文本摘要领域的研究重点。生成式文本摘要主要基于带注意力机制的Seq2Seq框架,可以使用RNN、CNN、Transformers构建模型。近年来,随着预训练任务的提出,越来越多使用预训练语言模型的文本摘要模型被提出来,通过使用预训练语言模型的语言能力,文本摘要任务取得了前沿的进展。
[0003]然而传统的生成式模型使用束搜索算法生成一篇摘要,束搜索算法容易导致非最优的输出结果。另外,由于模型在最大似然估计下采用教师强迫的方式进行训练,因此存在目标函数与评价指标不一致的问题。其中,训练目标为生成摘要和参考摘要的令牌级损失,评价指标为生成摘要和文档的全局相似度。先“生成”再“匹配”的两阶段框架,通过生成多个候选摘要,然后从中选出最佳的一个,缓解了上述两个问题。SimCLS模型遵循了两阶段框架的范式,将文本摘要任务的性能提升到了一个 ...
【技术保护点】
【技术特征摘要】
1.一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,具体包括以下步骤:步骤1:采用生成模型g(
·
),所述g(
·
)是一个序列到序列模型,通过最小化生成摘要S和参考摘要的负对数似然对其进行训练;步骤2:用步骤1预训练的模型g(
·
)生成多个候选摘要S
i
,S
i
∈S1,...,S
n
,其中n是候选摘要的数量;n取大于等于1的整数;步骤3:将生成的多个候选摘要按照ROUGE评价指标进行降序排序;步骤4:设计一个匹配模型h(
·
),分别为不同的候选摘要打分,然后选择分数最高的候选摘要作为文本摘要模型的最终输出;步骤5:在上述训练过程中,使用排序损失函数L
rank
学习真实评价指标的排序方式,完成对步骤3中提出的匹配模型h(
·
)的训练,使模型能够识别出最匹配的候选摘要。2.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,步骤4具体为:步骤4.1:使用语义匹配任务中的交叉编码模型cross
‑
encoder对公开数据集中文档D和候选摘要S
i
进行交叉编码;首先将文档D和候选摘要S
i
拼接成一个单一的长文本;然后将其喂到语义交互模型t(
·
)中,经过模型t(
·
)的编码后取第一个词[cls]的嵌入向量作为候选者
‑
文档的最终表示向量;所述语义交互模型t(
·
)是基于Transformer结构的编码器,使用预训练自注意力模型RoBERTa对其参数进行初始化,用来编码S
i
和D,最终得到S
i
和D的相似度得分;步骤4.2:选取得分最高的候选摘要作为文本摘要模型最终生成的摘要S。3.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,步骤4.1具体为:特征在于,步骤4.1具体为:特征在于,步骤4.1具体为:其中,第一个词[cls]是一个额外的输入,目的是让语义交互模型学习到候选者
‑
文档的交互表示信息,[sep]是不同文本间的分割符;Pooling(
·
)函数选择的第一个向量作为最终表示信息;线性层W1各向量转化成一个标量,用来表示文档D和候选摘要S
i
的相似度;考虑到候选摘要匹配与语义匹配任务本质上的区别,提出两个策略辅助模型对匹配模型h(
·
)进行训练。4.根据权利要求3所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,所述第一个策略具体为:由于步骤2生成的多个候选摘要是由同一个文档获取的,所以它们之间相似度很高,为了让匹配模型h(
·
)获取到不同候选摘要之间的区别,直接使用每一个候选摘要S
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。