【技术实现步骤摘要】
一种基于扩散序列的可控文本生成方法
[0001]本专利技术涉及文本生成方法
,具体是指一种基于扩散序列的可控文本生成方法
。
技术介绍
[0002]随着大规模预训练语言模型的出现,文本生成技术已经取得了突破性进展;然而,在开放性的文本生成领域,生成的内容缺乏拟人化的情感特征,使得生成的文本难以让人产生共鸣和情感上的联系,比如在商品评论生成方面,文本生成技术需要更好地理解产品的情感特征,例如外观
、
功能和性能等因素,以便生成更加有说服力和吸引人的评论;同时,文本生成技术需要更好地表达出用户的情感反应,例如满意
、
失望和惊喜等,这仍然是一个需要解决的问题
。
[0003]目前,深度学习中的方法,例如
Seq2Seq
,
Attention
等方法已经广泛应用于文本生成系统中,并且也已经取得不错的成就,但仍存在部分缺陷,例如生成语句不够通顺,情感不够丰富等;而一些大型预训练模型的出现,如
BERT、GPT
,使得人们已经能够较低门槛使用机器批量生成高质量的文本内容,但因其不可控性导致应用场景非常少
。
这是由于生成的文本需要适用于特定的应用,这要求生成的文本要包含对事情的叙述
、
特定观点与情感的表达等,所以这些文本不仅需要保证通顺流畅,还要包含特定的内容
、
立场
、
情绪等属性
。
[0004]扩散模型是近年来新兴的一类深度生成 ...
【技术保护点】
【技术特征摘要】
1.
一种基于扩散序列的可控文本生成方法,其特征在于,包括:给定控制属性
w
x
和真实文本
w
y
,训练一个语言模型,使其在输入
w
x
时,语言模型可以输出符合
w
x
的高质量虚假文本;具体的,将其形式化为:
p(ww
x
)
∝
p(w)
·
p(w
x
w)(1)
上式
(1)
中,
p(ww
x
)
为条件分布;
w
x
为控制属性;
p(w)
保证流畅性;
p(w
x
w)
来完成属性控制过程;其中,训练语言模型,包括以下步骤:将经过
prompt
后的控制属性和目标文本分别由
w
x
和
w
y
表示,它们构成了由
w
表示的序列;
w0‑
w
t
分别表示
w
在0‑
t
时间步骤的状态;在前向过程中只对
w
y
部分进行加噪处理,并用
ERNIE
编码器对整个序列进行编码,每个时间步骤的状态可以通过计算得到;在反向过程中,只对
w
y
部分进行去噪处理,联合
ERNIE
预训练模型对
w
y
部分进行解码,以确保生成文本的流畅性,同时
w
x
作为
prompt
来引导去噪过程的每一步,以确保生成的每个新文本都符合
w
x
,此时,每个时间步骤状态的计算方法不再是传统扩散的而是变为因此,
w
x
作为控制属性,并没有直接参与扩散模型的加噪与去噪过程,在前向加噪过程中,其目的是在
w
x
与
w
y
这两个不同的特征空间之间建立联系,以建模控制属性
w
x
和文本
w
y
之间的特征关系;在反向去噪过程中,
w
x
的主要作用是作为
prompt
来引导
w
y
进行条件生成;最终,语言模型能够生成符合控制属性
w
x
的目标文本
。2.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在前向加噪过程中,从
t0时刻开始,序列每个时间步都被随机
mask
,在最后时刻是一个完全
mask
状态;然后在反向去噪过程中,再逐步去噪,即一步一步把
mask
解码成文字
。3.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,针对于数据集中的控制属性和文本,直接把它们当作序列来处理
。4.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在前向扩散时,保持控制属性部分对应的向量不变,从
w0开始,只对文本部分对应的向量进行加噪,最终加噪到目标空间
w
t
,此时
w
t
是一个完全的
mask
状态;再把反向去噪的计算过程从变为表示每一时刻的输出不仅和上一时刻的输出有关,也和控制属性
w
x
相关
。5.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在反向去噪时,同样保持控制属性部分对应的向量不变,只对文本部分对应的向量单独进行去噪,且去噪的每步都要符合控制属性
w
x
,使得控制属性和文本内容两个不同特征的空间联合,从而使得它们在扩散过程中产生联系,最终生成由
w
x
属性控制的新序列
。6.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,扩散过
程中,控制
w
0:T
w...
【专利技术属性】
技术研发人员:李晨阳,郑秋生,张龙,刘济宗,曲晓东,牛利月,
申请(专利权)人:中原工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。