一种低资源场景下的文本生成方法、装置及系统制造方法及图纸

技术编号:33790718 阅读:86 留言:0更新日期:2022-06-12 14:47
本发明专利技术提出了一种低资源场景下的文本生成方法、装置与系统,包括:步骤一,为有监督网络输入少量的有监督训练样本,同时为无监督网络输入大量的无监督训练样本,并对无监督文档复制两份,再分别对其嵌入向量进行dropout,得到两组嵌入向量;步骤二,为大型预训练文本生成网络并行集成适配器的小型神经网络,组成基于适配器微调的预训练学习组件;步骤三,对有监督网络与无监督网络采用基于适配器微调预训练学习组件,对无监督网络进行一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化,并利用优化好的模型进行预测。本发明专利技术方案减少了对大量的人工标注数据的依赖,并使得模型训练过程训练开销也大幅降低。低。低。

【技术实现步骤摘要】
一种低资源场景下的文本生成方法、装置及系统


[0001]本专利技术涉及人工智能领域,主要涉及一种低资源场景下的文本生成方法、装置及系统。

技术介绍

[0002]随着互联网技术的发展,万维网上大量的文本信息飞速增长,在现有的信息爆炸的场景下,对于新闻等内容的阅读而言,亟需一种能够进行自动凝练并生成简单文本生成的方法,如自动生成标题,自动生成新闻的摘要或者自动生成新闻的时间线叙事文档。并且随着移动互联网设备的普及,移动设备端的屏幕也要求新闻的内容和展示以概要的形式呈现。自动文本生成方法是解决对海量新闻等大规模信息进行核心内容摘取与生成的唯一途径。
[0003]实现这一方法的传统模式是利用海量的人工标注数据训练文本生成模型,让训练好的模型去对新的新闻数据进行文本的自动生成。然而在现实的很多场景中,标注海量的目标文本数据需要大量的人力物力,耗时且低效。比如生成中文新闻标题的LCSTS数据的标注规模达到210多万条,中文新闻摘要THUCNews数据的标注规模达到83多万条。现有方法并未讨论在少标注样本低资源场景下如何训练一个文本生成模型。其次现有的预训练模型在文本生成任务上表现优异,但预训练模型由于本身海量的模型参数量,带来了较大的训练开销(比如GPU显存开销大,模型训练时间久)。如何降低模型训练的开销,在轻量级也是一个亟待解决的问题。本专利技术涉及一种低资源场景下的文本生成方法、装置及系统。适应于抽取式文本生成比如抽取关键词进行生成,还有生成式文本生成比如逐词生成目标文本需求。本专利技术利用了一致性半监督学习来解决少标注样本场景,可以将210万的LCSTS中文新闻标题生成数据集的标注样本数量降低到10%,并保证其10%的有标签数据与大量无标签数据下的模型性能持平到50%左右的有标签数据的文本生成性能,本专利技术还利用了适配器微调的预训练参数冻结方法,如冻结预训练BERT模型可以降低110M左右的参数不参与梯度反向计算,降低文本生成模型的训练开销。

技术实现思路

[0004]针对目前文本生成方法低资源场景需求,本专利技术进行深入研究与实践,实现对少标注场景下的文本自动生成,极大地减少了文本生成方法对海量的人工标注数据的依赖,并且保持较好的文本生成性能。
[0005]为达到上述目的,本专利技术采用了下列技术方案,
[0006]包括三个步骤:
[0007]步骤一,为有监督网络输入少量的有监督训练样本,对应输入文档的嵌入向量,同时为无监督网络输入大量的无监督训练样本,即为开放式语料中获取的大量的不包含人工标注源文档数据,并对无监督文档复制两份,再分别对其对应的嵌入向量行了进行dropout,得到两组嵌入向量;
[0008]步骤二,为大型预训练文本生成网络(Pre

trained model)并行集成适配器的小型神经模块(Adapter),组成适配器微调预训练学习组件。在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件。在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结。具体而言,
[0009]其中,在有监督网络T中进行有监督训练,训练过程的输入为有监督源文档

目标文本对(x
*
,y
*
),在无监督网络A和B中进行所述的无监督一致性学习,训练过程的输入为x,A和B输出为其预测标签,一致性学习则是使得他们的预测标签一致。
[0010]其中,在基于适配器微调的预训练学习组件中,该网络的输入为嵌入向量为:H
input
,输出为对于有监督网络T,H
input
为x
*
的嵌入向量,对于无监督网络A,H
input
为x对应dropout的嵌入向量,对于无监督网络B,H
input
为x复制后进行另外一次dropout的嵌入向量。H
input
将同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有小型的Adapter网络的参数参与更新计算,从而达到降低模型训练开销的目的。
[0011]其中,在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络(Adapter),其前向部分的更新参数为W
in
,通过一个非线性激活函数Relu函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数W
out
对适配器进行训练,适配器的输出表示向量为
[0012][0013]其中,在基于适配器微调的预训练学习组件中,结合大型预训练文本生成模型的输出与其线性相加后得到适配器微调预训练学习组件最后的输出表示向量
[0014][0015]步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化。
[0016]其中,无监督网络A和B,进行所述的无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,无监督损失函数为:
[0017][0018]其中,S
A
和S
B
分别表示具体的无监督网络A与无监督网络B,是一对孪生网络,在抽取式文本生成中为BERT并行集成Adapter,在生成式文本生成中为BART并行集成Adapter,X
u
为输入的无监督文本生成数据集,和表示经过增强数据增强后的输入值,在本专利技术中即为分别经过dropout后得到的两组不同的嵌入向量表示;
[0019]同时,联合优化有监督网络的有监督学习,进行有监督文本生成模型的训练,有监督损失函数为;
[0020][0021]其中,T(x
*
)表示有监督网络,与所述S
A
和S
B
的孪生网络,在抽取式文本生成中为BERT并行集成Adapter;在生成式文本生成中为BART并行集成Adapter。X
l
为输入的有人工标注的文本生成数据集,x
*
和y
*
分别表示源文档和其对应的人工标注生成目标文本:
[0022]最后,联合无监督网络的一致性学习与有监督网络的有监督学习,得到最终的损失函数l
final
,用于模型的训练与优化:
[0023]l
final
(θ,X)=λl
unsup
(θ,X
u
)+l
sup
(θ,X
l
),X=X
u
+X
l
[0024][0025][0026][0027]其中,λ为超参数,代表无监督一致性学习的训练部分在整个模型训练过程中的重要程度,θ
A
为适配器的小型神经模块的参数,θ
B
为大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种低资源场景下的生成文本生成方法,其特征在于,包括三个步骤:步骤一,为有监督网络输入少量的有监督训练样本,并对应小规模输入训练样本文档的嵌入向量,同时为无监督网络输入大量的无监督训练样本,即为开放式语料中获取的大量的不包含人工标注的源文档数据,并对无监督文档复制两份,再分别对其对应的嵌入向量行了进行dropout,得到两组嵌入向量;步骤二,为大型预训练文本生成网络并行集成一个适配器的小型神经模块,组成适配器微调预训练学习组件,在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件,在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结,具体而言,其中,在所述有监督网络T中进行有监督训练,训练过程的输入为有监督源文档

目标文本对(x
*
,y
*
),在无监督网络A和无监督网络B中进行无监督一致性学习,训练过程的输入为x,所述无监督网络A和所述无监督网络B输出为其预测标签,一致性学习则是使得他们的预测标签一致;其中,在基于适配器微调的预训练学习组件中,网络的输入为嵌入向量表示为:H
input
,输出表示向量为:对于所述有监督网络T,H
input
为x
*
的嵌入向量,对于所述无监督网络A,H
input
为x对应dropout的嵌入向量,对于所述无监督网络B,H
input
为x复制后进行另外一次dropout的嵌入向量,H
input
同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有适配器小型神经网络的参数参与更新计算;在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络前向部分的更新参数为W
in
,通过非线性激活函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数W
out
对适配器进行训练,适配器的输出表示向量为对适配器进行训练,适配器的输出表示向量为进而,结合大型预训练文本生成模型的输出表示向量Model(H
input
),与其线性相加后得到适配器微调预训练学习组件的最后的输出表示向量),与其线性相加后得到适配器微调预训练学习组件的最后的输出表示向量步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化,对所述无监督网络A和所述无监督网络B进行所述无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,无监督学习的损失函数l
unsup
为:其中,S
A
和S
B
分别表示具体的所述无监督网络A与所述无监督网络B,是一对孪生网络,在抽取...

【专利技术属性】
技术研发人员:李建欣毛乾任刘骏楠蒋为峰邓婷邰振赢
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1