一种基于预训练软提示的少样本摘要生成方法技术

技术编号:33894640 阅读:28 留言:0更新日期:2022-06-22 17:30
本发明专利技术提出一种基于预训练软提示的少样本摘要生成方法,包括:接收源文本并转换为源文本向量;将源文本向量输入摘要生成模型,从而输出摘要:摘要生成模型包括编码器和解码器;编码器用于接收源文本向量和文本内部软提示向量相加所得的向量和编码器软提示,输出源文本的特征;解码器用于根据编码器提取的源文本的特征和解码器软提示输出摘要;编码器软提示用于提升特征提取的效果;文本内部软提示用于促进摘要生成模型对文本结构以及句子间关系的特征提取;解码器软提示用于提升特征表示的效果。通过本发明专利技术,能够获得相关度、准确度、流畅度更高的摘要。流畅度更高的摘要。流畅度更高的摘要。

【技术实现步骤摘要】
一种基于预训练软提示的少样本摘要生成方法


[0001]本专利技术涉及自然语言处理与深度学习
,尤其涉及一种基于预训练软提示的少样本文本生成方法。

技术介绍

[0002]少样本场景,即只有少量训练样本的场景下的抽象式摘要生成任务是自然语言处理领域的一个重点研究课题。现有的传统技术是微调预训练语言模型的整套参数以适应特定下游任务。而现有的较为先进的技术是提示调整技术(Prompt Tuning),提示调整技术是将由连续的词嵌入向量组成的小规模参数矩阵,称为软提示,置于预训练语言模型的编码器前,固定住预训练语言模型的参数,只调整软提示的参数的一种技术手段。在提示调整技术的基础上,现有的前缀调整技术(Prefix

Tuning)将软提示应用于预训练语言模型的每一层,在训练时只调整软提示的参数。
[0003]实际情况中的一个少样本场景是,获取到大量源文本,但难获取到与源文本对应的摘要,可能只能获取到少量的源文本和对应的摘要。
[0004]实验表明:
[0005](1)传统的微调技术[1][2][3]在少样本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于预训练软提示的少样本摘要生成方法,其特征在于,所述方法包括:接收源文本并转换为源文本向量;将源文本向量输入摘要生成模型,从而输出摘要;所述摘要生成模型包括顺次连接的编码器和解码器;其中,编码器,用于接收源文本向量和文本内部软提示向量相加所得的向量和编码器软提示,输出编码向量;解码器,用于根据编码器输出的编码向量和解码器软提示输出摘要;所述编码器软提示,用于对编码器的编码过程进行提示;所述文本内部软提示,用于通过指示文本中句子或文本段的位置信息,促进摘要生成模型对文本结构以及句子间关系的理解,使得生成的摘要的相关度、准确度、流畅度更高;所述解码器软提示,用于对解码器的解码过程进行提示。2.根据权利要求1所述的方法,其特征在于,所述摘要生成模型的训练方法包括:S1、对文本摘要生成模型进行预训练;S2、对预训练后的模型进行少样本训练,从而得到编码器软提示、解码器软提示、文本内部软提示。3.根据权利要求2所述的方法,其特征在于,在所述步骤S1中,所述预训练为自监督预训练,包括:S11、从训练文本数据的训练源文本中构造伪数据;S12、将伪数据输入摘要生成模型,将最小化损失函数作为预训练目标,使用反向传播算法训练所述摘要生成模型。4.根据权利要求3所述的方法,其特征在于,在所述步骤S11中,构造伪数据的方法有两种,对应不同的训练源文本的类型:(1)对于训练文本数据中的所有源文本,选取前三个句子作为伪摘要,将源文本的剩余部分作为伪原文,将所述伪原文和伪摘要构成新的文本摘要对;所有新构建的文本摘要对的集合作为伪数据;(2)对于训练文本数据的所有源文本,根据ROUGE

F1指标,计算源文本中每个句子与文本其他部分的rouge得分,选取rouge得分最高的若干个句子并依照它们在训练源文本中的顺序拼接得到伪摘要,将训练源文本的其它部分作为伪原文,将所述伪原文和伪摘要构成新的文本摘要对;所有新构建的文本摘要对的集合作为伪数据。5.根据权利要求3所述的方法,其特征在于,所述步骤S12包括:S121、从伪数据作为第一训练样本,并将伪原文和伪摘要转换为第一训练文本向量X和第一训练文本摘要向量Y,在向量Y前面添加句子起始符,得到向量Y

;S122、将第一训练文本向量X与文本内部软提示向量P
in
进行相加,得到向量X';S123、将编码器软提示向量P
en
与所述向量X'进行拼接,得到向量[P
en
;X

];S124、将向量[P
en
;X

]输入到编码器的编码器注意力层,生成编码器注意力向量Z
en
;将Z
en
输入到编码器前馈神经网络层,经过线性映射后,生成编码向量A,作为编码器的输出;S125、将解码器软提示向量P
de
与向量Y

进行拼接,得到向量[P
de
;Y

];S126、将向量[P
de
;Y

]输入到解码器的解码器注意力层,生成解码器注意力向量Z
de
;将Z
de
和所述编码向量A输入到解码器的编码器

解码器注意力层,生成编码器

解码器注意力
向量Z

de
将Z

de
输入到解码器前馈神经网络层,分步循环生成预测输出向量o
t
(t∈[1,|Y|]),每一步代表预测摘要文本的一个分词,然后根据概率分布得到当前步的预测输出文本w
t
;S127、通过反向传播算法训练编码器软提示P
en
、解码器软提示P
de
以及文本内部软提示P
in
,训练后的文...

【专利技术属性】
技术研发人员:刘啸尘高扬胡亦楠
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1