当前位置: 首页 > 专利查询>中原工学院专利>正文

一种基于扩散序列的可控文本生成方法技术

技术编号:39786134 阅读:10 留言:0更新日期:2023-12-22 02:26
本发明专利技术公开了一种基于扩散序列的可控文本生成方法,包括给定控制属性

【技术实现步骤摘要】
一种基于扩散序列的可控文本生成方法


[0001]本专利技术涉及文本生成方法
,具体是指一种基于扩散序列的可控文本生成方法


技术介绍

[0002]随着大规模预训练语言模型的出现,文本生成技术已经取得了突破性进展;然而,在开放性的文本生成领域,生成的内容缺乏拟人化的情感特征,使得生成的文本难以让人产生共鸣和情感上的联系,比如在商品评论生成方面,文本生成技术需要更好地理解产品的情感特征,例如外观

功能和性能等因素,以便生成更加有说服力和吸引人的评论;同时,文本生成技术需要更好地表达出用户的情感反应,例如满意

失望和惊喜等,这仍然是一个需要解决的问题

[0003]目前,深度学习中的方法,例如
Seq2Seq

Attention
等方法已经广泛应用于文本生成系统中,并且也已经取得不错的成就,但仍存在部分缺陷,例如生成语句不够通顺,情感不够丰富等;而一些大型预训练模型的出现,如
BERT、GPT
,使得人们已经能够较低门槛使用机器批量生成高质量的文本内容,但因其不可控性导致应用场景非常少

这是由于生成的文本需要适用于特定的应用,这要求生成的文本要包含对事情的叙述

特定观点与情感的表达等,所以这些文本不仅需要保证通顺流畅,还要包含特定的内容

立场

情绪等属性

[0004]扩散模型是近年来新兴的一类深度生成模型,因其独特的概率扩散过程,在图片生成方面超过了
GAN
,并且在其他领域,如计算机视觉

音频等方面都有出色的表现;由于离散文本的不可微性,导致把扩散过程和文本生成结合应用十分困难

[0005]一些工作试图解决这个问题,其中
D3PM
尝试利用转移矩阵直接在离散文本上进行扩散,但这种方法生成文本质量不高,更不能进行可控式生成,扩散模型的高斯分布加噪过程主要是针对图像或者波形的连续状态,
2022
年,
Jacob
尝试把扩散过程加入到离散的变量中,定义一系列转移矩阵,基于概率在不同时间步将一个离散词转化为
mask
或保持不变;虽然模型生成质量不太流畅,但确是把扩散模型应用到文本生成领域的一次尝试

[0006]2022
年,为了解决文本的离散性,作者
Lisa
定义了一个词嵌入的方式统一了扩散过程中离散到连续的状态,具体做法是把前向过程的离散字词,首先通过词嵌入转化为连续的潜在变量,之后对每个连续变量不断加入高斯噪声进行前向扩散;后向时不断去噪并且最终将每个潜在向量量化到一个距离最近的词嵌入上;由于扩散过程中间变量的连续且分层特性,作者发现这种特性可以灵活的通过分类器指定的属性进行即插即用控制

所以在在第二步,作者训练单独的分类器,用分类器对先前训练的扩散语言模型进行引导,以此来输出符合分类器属性的文本;针对离散文本不可微的问题,
Diffusion

LM
通过将离散文本映射到连续空间,使得离散文本最终变得可微,从而取得了比较好的结果,该模型在文本多样性方面表现突出,但在句子流畅度方面却有所不足

[0007]随着大规模预训练语言模型的出现,文本生成技术愈加成熟,由于
transformer
类模型先天的自回归解码优势,使得
GPT
类的大型预训练模型成为文本生成新的范式

但并不
能因此否认非自回归解码模型的生成能力;虽然现有的预训练模型已足够生成流畅的文本,也能够利用
PPLM、FUDGE
等方法来生成可控的文本,增加文本多样性,但这却是在牺牲文本流畅度前提下进行的


技术实现思路

[0008]为解决上述技术问题,本专利技术提供的技术方案为:一种基于扩散序列的可控文本生成方法,包括:
[0009]给定控制属性
w
x
和真实文本
w
y
,训练一个语言模型,使其在输入
w
x
时,语言模型可以输出符合
w
x
的高质量虚假文本;具体的,将其形式化为:
[0010]p(w|w
x
)

p(w)
·
p(w
x
|w)
ꢀꢀ
(1)
[0011]上式
(1)
中,
p(w|w
x
)
为条件分布;
w
x
为控制属性;
p(w)
保证流畅性;
p(w
x
|w)
来完成属性控制过程;
[0012]其中,训练语言模型,包括以下步骤:
[0013]将经过
prompt
后的控制属性和目标文本分别由
w
x

w
y
表示,它们构成了由
w
表示的序列;
[0014]w0‑
w
t
分别表示
w
在0‑
t
时间步骤的状态;
[0015]在前向过程中只对
w
y
部分进行加噪处理,并用
ERNIE
编码器对整个序列进行编码,每个时间步骤的状态可以通过计算得到;
[0016]在反向过程中,只对
w
y
部分进行去噪处理,联合
ERNIE
预训练模型对
w
y
部分进行解码,以确保生成文本的流畅性,同时
w
x
作为
prompt
来引导去噪过程的每一步,以确保生成的每个新文本都符合
w
x
,此时,每个时间步骤状态的计算方法不再是传统扩散的而是变为
[0017]因此,
w
x
作为控制属性,并没有直接参与扩散模型的加噪与去噪过程,在前向加噪过程中,其目的是在
w
x

w
y
这两个不同的特征空间之间建立联系,以建模控制属性
w
x
和文本
w
y
之间的特征关系;
[0018]在反向去噪过程中,
w
x
的主要作用是作为
prompt
来引导
w
y
进行条件生成;
[0019]最终,语言模型能够生成符合控制属性
w
x
的目标文本

[0020]本专利技术与现有技术相比的优点在于:本专利技术以扩散模型为基础模型架构,结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于扩散序列的可控文本生成方法,其特征在于,包括:给定控制属性
w
x
和真实文本
w
y
,训练一个语言模型,使其在输入
w
x
时,语言模型可以输出符合
w
x
的高质量虚假文本;具体的,将其形式化为:
p(ww
x
)

p(w)
·
p(w
x
w)(1)
上式
(1)
中,
p(ww
x
)
为条件分布;
w
x
为控制属性;
p(w)
保证流畅性;
p(w
x
w)
来完成属性控制过程;其中,训练语言模型,包括以下步骤:将经过
prompt
后的控制属性和目标文本分别由
w
x

w
y
表示,它们构成了由
w
表示的序列;
w0‑
w
t
分别表示
w
在0‑
t
时间步骤的状态;在前向过程中只对
w
y
部分进行加噪处理,并用
ERNIE
编码器对整个序列进行编码,每个时间步骤的状态可以通过计算得到;在反向过程中,只对
w
y
部分进行去噪处理,联合
ERNIE
预训练模型对
w
y
部分进行解码,以确保生成文本的流畅性,同时
w
x
作为
prompt
来引导去噪过程的每一步,以确保生成的每个新文本都符合
w
x
,此时,每个时间步骤状态的计算方法不再是传统扩散的而是变为因此,
w
x
作为控制属性,并没有直接参与扩散模型的加噪与去噪过程,在前向加噪过程中,其目的是在
w
x

w
y
这两个不同的特征空间之间建立联系,以建模控制属性
w
x
和文本
w
y
之间的特征关系;在反向去噪过程中,
w
x
的主要作用是作为
prompt
来引导
w
y
进行条件生成;最终,语言模型能够生成符合控制属性
w
x
的目标文本
。2.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在前向加噪过程中,从
t0时刻开始,序列每个时间步都被随机
mask
,在最后时刻是一个完全
mask
状态;然后在反向去噪过程中,再逐步去噪,即一步一步把
mask
解码成文字
。3.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,针对于数据集中的控制属性和文本,直接把它们当作序列来处理
。4.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在前向扩散时,保持控制属性部分对应的向量不变,从
w0开始,只对文本部分对应的向量进行加噪,最终加噪到目标空间
w
t
,此时
w
t
是一个完全的
mask
状态;再把反向去噪的计算过程从变为表示每一时刻的输出不仅和上一时刻的输出有关,也和控制属性
w
x
相关
。5.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,在反向去噪时,同样保持控制属性部分对应的向量不变,只对文本部分对应的向量单独进行去噪,且去噪的每步都要符合控制属性
w
x
,使得控制属性和文本内容两个不同特征的空间联合,从而使得它们在扩散过程中产生联系,最终生成由
w
x
属性控制的新序列
。6.
根据权利要求1所述的一种基于扩散序列的可控文本生成方法,其特征在于,扩散过
程中,控制
w
0:T
w...

【专利技术属性】
技术研发人员:李晨阳郑秋生张龙刘济宗曲晓东牛利月
申请(专利权)人:中原工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1