当前位置: 首页 > 专利查询>东北大学专利>正文

一种基于语义匹配和改进交叉编码模型的文本摘要方法技术

技术编号:37447548 阅读:13 留言:0更新日期:2023-05-06 09:19
本发明专利技术设计了一种基于语义匹配和改进交叉编码模型的文本摘要方法,属于自然语言处理领域;获取候选摘要,并基于ROUGE评价指标对其进行降序排序;设计训练一个匹配模型,对候选摘要进行打分,选择分数最高的候选摘要作为文本摘要模型的最终输出,并且使用排序损失函数,不断优化匹配模型,使模型能够识别出最匹配的候选摘要;本发明专利技术沿用两阶段框架,从多个方面对匹配阶段做出改进,充分获取候选摘要和文档之间的细粒度的语义交互信息,从而在匹配阶段更准确地计算候选摘要和文档的语义相似性,实验表明本发明专利技术在文本摘要任务中具有很好的性能。的性能。

【技术实现步骤摘要】
一种基于语义匹配和改进交叉编码模型的文本摘要方法


[0001]本专利技术属于自然语言处理领域,尤其涉及一种基于语义匹配和改进交叉编码模型的文本摘要方法。

技术介绍

[0002]自动文本摘要通过机器去理解文本含义,可以快速从冗余的文本中总结出关键信息。在实际应用中,文本摘要技术能够用来进行新闻标题的生成、学术文献摘要的生成、商品评论摘要的生成等。此外它也是问答系统、搜索引擎系统的技术支撑。生成式摘要由于包含更多文本底层的处理方法,比如文本理解、句子改写、同义词转换等,所以更困难,但却因为更符合人工编写摘要的方式,因此更有前景,特别是是随着深度学习和大规模数据集的出现,生成式摘要已经成为自动文本摘要领域的研究重点。生成式文本摘要主要基于带注意力机制的Seq2Seq框架,可以使用RNN、CNN、Transformers构建模型。近年来,随着预训练任务的提出,越来越多使用预训练语言模型的文本摘要模型被提出来,通过使用预训练语言模型的语言能力,文本摘要任务取得了前沿的进展。
[0003]然而传统的生成式模型使用束搜索算法生成一篇摘要,束搜索算法容易导致非最优的输出结果。另外,由于模型在最大似然估计下采用教师强迫的方式进行训练,因此存在目标函数与评价指标不一致的问题。其中,训练目标为生成摘要和参考摘要的令牌级损失,评价指标为生成摘要和文档的全局相似度。先“生成”再“匹配”的两阶段框架,通过生成多个候选摘要,然后从中选出最佳的一个,缓解了上述两个问题。SimCLS模型遵循了两阶段框架的范式,将文本摘要任务的性能提升到了一个新的水平。“生成阶段”调整预先训练好的摘要模型的束宽,让模型生成多个候选摘要;“匹配阶段”利用文本匹配技术对候选摘要和文档进行匹配,找到最相关的候选摘要作为最终输出。
[0004]SimCLS模型的匹配阶段对候选摘要和源文档进行简单编码,分别获得相应的单个向量表示,然后计算得到的两个向量的语义相似度作为最终得分。分别进行编码的方式很难获取文档和候选摘要之间复杂的交互特征。并且将每个文本压缩成的单个向量,不足以表示文本丰富的语义特征,这会导致匹配结果变差。

技术实现思路

[0005]针对现有技术的不足,本专利技术提出一种基于语义匹配和改进交叉编码模型的文本摘要方法,将候选摘要和文档拼接成一个长文本,然后使用同一个编码器来获取两者的交互特征,并且在不同候选者之间进行差异化处理,在模型中对候选摘要和文档进行语义矫正,充分获取候选摘要和文档之间的细粒度的语义交互信息,从而在匹配阶段更准确地计算候选摘要和文档的语义相似性。
[0006]一种基于语义匹配和改进交叉编码模型的文本摘要方法,具体包括以下步骤:
[0007]步骤1:采用生成模型g(
·
),所述g(
·
)是一个序列到序列模型,通过最小化生成摘要S和参考摘要的负对数似然对其进行训练;
[0008]步骤2:用步骤1预训练的模型g(
·
)生成多个候选摘要S
i
,S
i
∈S1,...,S
n
,其中n是候选摘要的数量;n取大于等于1的整数;
[0009]步骤3:将生成的多个候选摘要按照ROUGE评价指标进行降序排序;
[0010]步骤4:设计一个匹配模型h(
·
),分别为不同的候选摘要打分,然后选择分数最高的候选摘要作为文本摘要模型的最终输出;
[0011]步骤4.1:使用语义匹配任务中的交叉编码模型cross

encoder对公开数据集中文档D和候选摘要S
i
进行交叉编码;首先将文档D和候选摘要S
i
拼接成一个单一的长文本;然后将其喂到语义交互模型t(
·
)中,经过模型t(
·
)的编码后取第一个词[cls]的嵌入向量作为候选者

文档的最终表示向量;所述语义交互模型t(
·
)是基于Transformer结构的编码器,使用预训练自注意力模型RoBERTa对其参数进行初始化,用来编码S
i
和D,最终得到S
i
和D的相似度得分;
[0012][0013][0014][0015]其中,第一个词[cls]是一个额外的输入,目的是让语义交互模型学习到候选者

文档的交互表示信息,[sep]是不同文本间的分割符;Pooling(
·
)函数选择的第一个向量作为最终表示信息;线性层W1各向量转化成一个标量,用来表示文档D和候选摘要S
i
的相似度;
[0016]考虑到候选摘要匹配与语义匹配任务本质上的区别,提出两个策略辅助模型对匹配模型h(
·
)进行训练:
[0017]第一个策略:由于步骤2生成的多个候选摘要是由同一个文档获取的,所以它们之间相似度很高,为了让匹配模型h(
·
)获取到不同候选摘要之间的区别,直接使用每一个候选摘要S
i
的相关表示信息作为附加的信息去估计语义匹配分数,使用语义交互模型t(
·
)编码得到的与候选摘要S
i
相关的一部分输出计算表示信息,对最终的输出结果进行增强;
[0018][0019][0020]其中AvgPooling(
·
)函数将候选者

文档的编码表示分成两组,分别对应S
i
和D,然后对每一组的所有表示向量做平均池化,目的是获取到每一组各自的嵌入表示信息;W2是另一个线性层,用来将候选摘要的嵌入表示信息转化成一个标量,作为附加分数;通过超参数α对附加分数重新加权,添加到主分数中以产生最终分数:
[0021]h(S
i
,D)=α
·
h1(S
i
,D)+(1

α)
·
h2(S
i
)
[0022]第二个策略:在生成阶段生成的候选摘要是从文档高度浓缩的,所以理论上每一个候选摘要S
i
的语义和文档D都非常相近;基于此,设计一个辅助函数用来加强候选摘要S
i
和文档D的语义相似性;对第一个策略中通过平均池化获取到的Si和D各自的嵌入表示信息v
D
进行语义纠正处理,通过最大化它们的相似性进一步增强它们的语义一致性:
[0023][0024]其中Similarity(
·
)函数采用余弦相似度损失函数,用来逼近和v
D
的表示,纠正模型计算的语义表示信息;
[0025]步骤4.2:选取得分最高的候选摘要作为文本摘要模型最终生成的摘要S:
[0026]S=argmax h1(S
i
,D)
[0027]步骤5:在上述训练过程中,使用排序损失函数L
rank
学本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,具体包括以下步骤:步骤1:采用生成模型g(
·
),所述g(
·
)是一个序列到序列模型,通过最小化生成摘要S和参考摘要的负对数似然对其进行训练;步骤2:用步骤1预训练的模型g(
·
)生成多个候选摘要S
i
,S
i
∈S1,...,S
n
,其中n是候选摘要的数量;n取大于等于1的整数;步骤3:将生成的多个候选摘要按照ROUGE评价指标进行降序排序;步骤4:设计一个匹配模型h(
·
),分别为不同的候选摘要打分,然后选择分数最高的候选摘要作为文本摘要模型的最终输出;步骤5:在上述训练过程中,使用排序损失函数L
rank
学习真实评价指标的排序方式,完成对步骤3中提出的匹配模型h(
·
)的训练,使模型能够识别出最匹配的候选摘要。2.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,步骤4具体为:步骤4.1:使用语义匹配任务中的交叉编码模型cross

encoder对公开数据集中文档D和候选摘要S
i
进行交叉编码;首先将文档D和候选摘要S
i
拼接成一个单一的长文本;然后将其喂到语义交互模型t(
·
)中,经过模型t(
·
)的编码后取第一个词[cls]的嵌入向量作为候选者

文档的最终表示向量;所述语义交互模型t(
·
)是基于Transformer结构的编码器,使用预训练自注意力模型RoBERTa对其参数进行初始化,用来编码S
i
和D,最终得到S
i
和D的相似度得分;步骤4.2:选取得分最高的候选摘要作为文本摘要模型最终生成的摘要S。3.根据权利要求1所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,步骤4.1具体为:特征在于,步骤4.1具体为:特征在于,步骤4.1具体为:其中,第一个词[cls]是一个额外的输入,目的是让语义交互模型学习到候选者

文档的交互表示信息,[sep]是不同文本间的分割符;Pooling(
·
)函数选择的第一个向量作为最终表示信息;线性层W1各向量转化成一个标量,用来表示文档D和候选摘要S
i
的相似度;考虑到候选摘要匹配与语义匹配任务本质上的区别,提出两个策略辅助模型对匹配模型h(
·
)进行训练。4.根据权利要求3所述的一种基于语义匹配和改进交叉编码模型的文本摘要方法,其特征在于,所述第一个策略具体为:由于步骤2生成的多个候选摘要是由同一个文档获取的,所以它们之间相似度很高,为了让匹配模型h(
·
)获取到不同候选摘要之间的区别,直接使用每一个候选摘要S

【专利技术属性】
技术研发人员:魏景琦姜琳颖
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1