【技术实现步骤摘要】
一种低资源场景下的文本生成方法、装置及系统
[0001]本专利技术涉及人工智能领域,主要涉及一种低资源场景下的文本生成方法、装置及系统。
技术介绍
[0002]随着互联网技术的发展,万维网上大量的文本信息飞速增长,在现有的信息爆炸的场景下,对于新闻等内容的阅读而言,亟需一种能够进行自动凝练并生成简单文本生成的方法,如自动生成标题,自动生成新闻的摘要或者自动生成新闻的时间线叙事文档。并且随着移动互联网设备的普及,移动设备端的屏幕也要求新闻的内容和展示以概要的形式呈现。自动文本生成方法是解决对海量新闻等大规模信息进行核心内容摘取与生成的唯一途径。
[0003]实现这一方法的传统模式是利用海量的人工标注数据训练文本生成模型,让训练好的模型去对新的新闻数据进行文本的自动生成。然而在现实的很多场景中,标注海量的目标文本数据需要大量的人力物力,耗时且低效。比如生成中文新闻标题的LCSTS数据的标注规模达到210多万条,中文新闻摘要THUCNews数据的标注规模达到83多万条。现有方法并未讨论在少标注样本低资源场景下如何训练一个文本生成模型。其次现有的预训练模型在文本生成任务上表现优异,但预训练模型由于本身海量的模型参数量,带来了较大的训练开销(比如GPU显存开销大,模型训练时间久)。如何降低模型训练的开销,在轻量级也是一个亟待解决的问题。本专利技术涉及一种低资源场景下的文本生成方法、装置及系统。适应于抽取式文本生成比如抽取关键词进行生成,还有生成式文本生成比如逐词生成目标文本需求。本专利技术利用了一致性半监督学习来解决少 ...
【技术保护点】
【技术特征摘要】
1.一种低资源场景下的生成文本生成方法,其特征在于,包括三个步骤:步骤一,为有监督网络输入少量的有监督训练样本,并对应小规模输入训练样本文档的嵌入向量,同时为无监督网络输入大量的无监督训练样本,即为开放式语料中获取的大量的不包含人工标注的源文档数据,并对无监督文档复制两份,再分别对其对应的嵌入向量行了进行dropout,得到两组嵌入向量;步骤二,为大型预训练文本生成网络并行集成一个适配器的小型神经模块,组成适配器微调预训练学习组件,在有监督网络T,和两个一致性的无监督网络A和B中,采用同样的网络架构的适配器微调预训练学习组件,在适配器微调预训练学习组件中,外加的小型适配器神经模块参与模型训练,而原来的大型的预训练文本生成模块需要保持参数冻结,具体而言,其中,在所述有监督网络T中进行有监督训练,训练过程的输入为有监督源文档
‑
目标文本对(x
*
,y
*
),在无监督网络A和无监督网络B中进行无监督一致性学习,训练过程的输入为x,所述无监督网络A和所述无监督网络B输出为其预测标签,一致性学习则是使得他们的预测标签一致;其中,在基于适配器微调的预训练学习组件中,网络的输入为嵌入向量表示为:H
input
,输出表示向量为:对于所述有监督网络T,H
input
为x
*
的嵌入向量,对于所述无监督网络A,H
input
为x对应dropout的嵌入向量,对于所述无监督网络B,H
input
为x复制后进行另外一次dropout的嵌入向量,H
input
同时输入到大型的预训练文本生成网络与小型的适配器网络中,在训练过程中该组件保持大型预训练文本生成模型部分的参数冻结,即参数不参与反向传播的参数学习与更新过程,只有适配器小型神经网络的参数参与更新计算;在基于适配器微调的预训练学习组件中,采用的适配器小型神经网络前向部分的更新参数为W
in
,通过非线性激活函数对嵌入向量进行非线性优化,再输入适配器的后项部分,利用其更新参数W
out
对适配器进行训练,适配器的输出表示向量为对适配器进行训练,适配器的输出表示向量为进而,结合大型预训练文本生成模型的输出表示向量Model(H
input
),与其线性相加后得到适配器微调预训练学习组件的最后的输出表示向量),与其线性相加后得到适配器微调预训练学习组件的最后的输出表示向量步骤三,基于无监督网络的一致性学习,并结合有监督网络的有监督学习进行文本生成模型的训练与优化,对所述无监督网络A和所述无监督网络B进行所述无监督一致性学习,让两个所述无监督的预训练文本生成神经网络的预测目标一致,无监督学习的损失函数l
unsup
为:其中,S
A
和S
B
分别表示具体的所述无监督网络A与所述无监督网络B,是一对孪生网络,在抽取...
【专利技术属性】
技术研发人员:李建欣,毛乾任,刘骏楠,蒋为峰,邓婷,邰振赢,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。