基于生成式预训练模型参数精调整的可控文本生成方法技术

技术编号:32970832 阅读:31 留言:0更新日期:2022-04-09 11:37
本发明专利技术提出基于生成式预训练模型参数精调整的可控文本生成方法。首先在生成式预训练模型的词嵌入层自定义条件编码,再将控制文本作为提示进行参数精调整,更新控制文本参数,使整个原始输入序列的负对数似然函数值最小化,以减少计算量,从而提高模型训练速度;同时在模型生成操作层融入编码网络实现可控归一化,使特征方差在不同深度的解码模块中保持偏向控制文本的范围,以提高模型的可控生成能力,从而提高可控文本生成精度。从而提高可控文本生成精度。从而提高可控文本生成精度。

【技术实现步骤摘要】
基于生成式预训练模型参数精调整的可控文本生成方法


[0001]本专利技术属于文本生成
,涉及文本生成模型训练与可控文本生成方法,具体涉及基于生成式预训练模型参数精调整的可控文本生成方法。

技术介绍

[0002]可控文本生成是文本生成领域的前沿问题。目前应用于可控文本生成的模型和方法主要有基于循环神经网络的语言生成模型、基于变分自编码器的语言生成模型、基于生成式对抗网络的语言生成模型和基于大规模预训练的语言生成模型,但各有其局限性。循环神经网络存在对长序列建模较早编码部分依赖不足的问题;变分自编码器训练过程中存在明显的隐变量消失问题,模型会逐渐失去对生成文本的控制作用;生成式对抗网络方法受制于极不稳定的对抗训练过程;大规模预训练模型依赖新场景的丰富语料,导致模型的可控生成成本大。
[0003]综上,现有的文本生成模型和方法应用于可控文本生成时,不但依赖于大规模标注数据,而且在训练过程中容易出现灾难性遗忘,导致模型的可控生成能力差。为了提高文本生成的可控能力,生成更符合给定条件的文本,需要更具适应性的预训练模型及可控文本生成方法。...

【技术保护点】

【技术特征摘要】
1.基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:具体包括以下步骤:步骤一、数据预处理将采集到的文本数据划分为引导文本X
a
=a
1 a2ꢀ…ꢀ
a
m
和生成文本X
b
=b
1 b2ꢀ…ꢀ
b
k
,根据生成文本的类别制作标签,作为控制文本X
c
=c
1 c2ꢀ…ꢀ
c
n
;将控制文本X
c
、引导文本X
a
和生成文本X
b
依次拼接,作为原始输入序列X,生成文本X
b
作为原始输出序列Y;步骤二、自定义条件编码将步骤一中的原始输入序列X输入生成式预训练模型的词嵌入层,得到的输入表示层的输出结果H0:H0=E1(X)+E2(X)+E3(X)式中,E1(X)、E2(X)、E3(X)分别为原始输入序列X的词向量矩阵、位置编码矩阵、条件编码矩阵,N表示最大序列长度,d表示输入表示维度;步骤三、控制文本参数精调整使用控制文本X
c
作为提示,对生成式预训练模型的词嵌入层和每一层的特征提取器Transformer基本单元进行控制文本X
c
参数精调整,前向传播计算过程为:H
l
=Transformer_block(H
l
‑1),1≤l≤L式中,H
l
为第l层Transformer基本单元输出的隐状态矩阵,L为模型的网络层数;Transformer_block(
·
)为Transformer基本单元,通过下式计算:)为Transformer基本单元,通过下式计算:)为Transformer基本单元,通过下式计算:)为Transformer基本单元,通过下式计算:式中,查询矩阵Q
l
‑1、键矩阵K
l
‑1和值矩阵V
l
‑1分别为H
l
‑1映射到对应子空间中得到W
q
H
l
‑1、W
k
H
l
‑1、W
v
H
l
‑1,A
l
‑1表示第l层的多头掩码注意力机制输出,F
l
表示第l层的前馈网络输出,H
l
分别为Transformer基本单元第一、第二部分的输出;W1、b1、W2、b2均为关于F
l
等式的可学习网络权重参数,ReLU(
·
)为relu函数,Softmax(
·
)为sofimax函数;其中,M为掩码矩阵形式化如下:其中,层归一化用于对输入的向量进行归一化操作;式中,μ和σ分别表示输入向量x每一维的均值和方差,γ、β为可学习的权重向量,代表向量对应向量的逐元素相乘;设置网络的训练目标为使整个原始输入序列X的负对数似然函数值最小化:
式中,y
i
表示生成目标序列中第i个输出序列,P(y
i
|Y<i,X
c
,X
a
)为H
L
经过线性映射和归一化后得到的...

【专利技术属性】
技术研发人员:王越胜叶旺何中杰
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1