文本风格迁移系统的训练方法及装置制造方法及图纸

技术编号:25915880 阅读:22 留言:0更新日期:2020-10-13 10:34
本申请提供一种文本风格迁移系统的训练方法及装置,所述训练方法包括:获取训练样本,其中,所述训练样本包括第一风格文本和所述第一风格文本对应的第二风格文本;将所述第一风格文本和所述第二风格文本输入至文本风格迁移模型的编码器和解码器进行训练,将所述第一风格文本输入至文本风格分类模型的编码器和分类器进行训练,直至达到训练停止条件,两个模型同时学习与更新,在共用的编码器中共享文本风格的特征,使得编码器输出的编码结果更接近于第二风格文本,模型训练效果更好,BLEU分值更高。

【技术实现步骤摘要】
文本风格迁移系统的训练方法及装置
本申请涉及计算机
,特别涉及文本风格迁移系统的训练方法及装置、文本风格迁移方法及装置、计算设备和计算机可读存储介质。
技术介绍
随着科学技术的不断发展,人工智能领域也取得了长足的进步,目前人工智能技术在智能出行、智能家居等领域都得到了具体落地应用。然而目前在于文本相关的领域仍未取得较大的突破,比如对文本的风格进行转换,将口语化的英语句子转化为更加规范的表达等。在现有的文本风格迁移过程中,通常采用的方法包括人工手动对文本进行修改或采用循环神经网络(RNN)或长短期记忆神经网络(LSTM)进行文本生成,但是人工对文本风格进行修改需要消耗大量的人力,并且不同的人对同一文本进行风格改写时,改写的结果受人为影响较大,对改写结果的评估也造成了很大的困难,另外一种通过RNN或LSTM等网络模型对文本风格进行转换在训练过程中都是单任务学习,简单的用一个神经网络模型对文本进行改写以达到修改文本风格的目的,但是不能直接控制生成的文本的风格,无法对改写后的文本是否达到了风格的转换进行验证。因此,如何解决上述问题,可以更好的控制改写后文本的风格就成为技术人员亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了文本风格迁移系统的训练方法及装置、文本风格迁移方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种文本风格迁移系统的训练方法,所述文本风格迁移系统包括文本风格迁移模型和文本风格分类模型,所述文本风格迁移模型和所述文本风格分类模型包括同一个编码器,所述训练方法包括:获取训练样本,其中,所述训练样本包括第一风格文本和所述第一风格文本对应的第二风格文本;将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,直至达到训练停止条件。可选的,将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,包括:将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量;将所述第二风格文本和所述编码向量经过所述文本风格迁移模型的解码器处理获得所述文本风格迁移模型输出的迁移文本;根据所述迁移文本和所述第二风格文本计算损失值;根据所述损失值调整所述文本风格迁移模型的模型参数以训练所述文本风格迁移模型。可选的,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,包括:将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量;将所述编码向量经过所述文本风格分类模型的分类器处理获得所述文本风格分类模型输出的正例概率;根据所述正例概率调整所述文本风格分类模型参数以训练所述文本风格分类模型。可选的,所述编码器包括第一嵌入层和n个依次连接的编码层;将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量,包括:将所述第一风格文本输入至所述第一嵌入层做嵌入化处理,获得所述第一风格文本对应的嵌入化向量;将所述嵌入化向量依次输入至每个所述编码层做编码处理,获得最后一个编码层输出的编码向量。可选的,所述解码器包括第二嵌入层、m个依次连接的解码层和输出层;将所述第二风格文本和所述编码向量经过所述文本风格迁移模型的解码器处理获得所述文本风格迁移模型输出的迁移文本,包括:S51、将所述第二风格文本输入至所述第二嵌入层做嵌入化处理,获得初始参考编码向量;S52、将所述编码向量和所述初始参考编码向量输入至第1个解码层,得到所述第1个解码层输出的解码向量;S53、将所述解码向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤m;S54、将j自增1,判断j是否大于m,若是,则执行步骤S55,若否,继续执行步骤S53;S55、将第m个解码层输出的解码向量经过输出层的归一化处理,获得对应的迁移文本。可选的,根据所述损失值调整所述文本风格迁移模型的模型参数,包括:根据所述损失值调整所述编码器和所述解码器的参数。可选的,所述分类器包括卷积层、池化层、全连接层和归一化层;将所述编码向量经过所述文本风格分类模型的分类器处理获得所述文本风格分类模型输出的正例概率,包括:将所述编码向量输入至所述卷积层做卷积处理,获得卷积向量;将所述卷积向量经过所述池化层、所述全连接层和所述归一化层处理,获得所述文本风格分类模型输出的正例概率。可选的,根据所述正例概率调整所述文本风格分类模型参数,包括:根据所述正例概率调整所述编码器和所述分类器的模型参数。可选的,所述训练停止条件包括:所述文本风格迁移模型的损失值小于预设第一阈值且所述文本风格分类模型的正例概率大于第二预设阈值。根据本申请实施例的第二方面,提供了一种文本风格迁移方法,包括:获取待迁移文本;将所述待迁移文本输入至文本风格迁移模型的编码器做编码处理,获得所述编码器输出的编码向量,其中,所述文本风格迁移模型通过上述文本风格迁移系统的训练方法训练得到的;将所述编码向量输入至所述文本风格迁移模型的解码器做解码处理,获得所述解码器输出的目标文本。根据本申请实施例的第三方面,提供了一种文本风格迁移系统的训练装置,所述文本风格迁移系统包括文本风格迁移模型和文本风格分类模型,所述文本风格迁移模型和所述文本风格分类模型包括同一个编码器,所述训练装置包括:获取模块,被配置为获取训练样本,其中,所述训练样本包括第一风格文本和所述第一风格文本对应的第二风格文本;训练模块,被配置为将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,直至达到训练停止条件。根据本申请实施例的第四方面,提供了一种文本风格迁移装置,包括:获取模块,被配置为获取待迁移文本;编码模块,被配置为将所述待迁移文本输入至文本风格迁移模型的编码器做编码处理,获得所述编码器输出的编码向量,其中,所述文本风格迁移模型通过上述文本风格迁移系统的训练方法训练得到的;解码模块,被配置为将所述编码向量输入至所述文本风格迁移模型的解码器做解码处理,获得所述解码器输出的目标文本。根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述文本风格迁移系统的训练方法或所述文本风格迁移方法的步骤。根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述文本本文档来自技高网...

【技术保护点】
1.一种文本风格迁移系统的训练方法,其特征在于,所述文本风格迁移系统包括文本风格迁移模型和文本风格分类模型,所述文本风格迁移模型和所述文本风格分类模型包括同一个编码器,所述训练方法包括:/n获取训练样本,其中,所述训练样本包括第一风格文本和所述第一风格文本对应的第二风格文本;/n将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,直至达到训练停止条件。/n

【技术特征摘要】
1.一种文本风格迁移系统的训练方法,其特征在于,所述文本风格迁移系统包括文本风格迁移模型和文本风格分类模型,所述文本风格迁移模型和所述文本风格分类模型包括同一个编码器,所述训练方法包括:
获取训练样本,其中,所述训练样本包括第一风格文本和所述第一风格文本对应的第二风格文本;
将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,直至达到训练停止条件。


2.如权利要求1所述的训练方法,其特征在于,将所述第一风格文本和所述第二风格文本输入至所述文本风格迁移模型的编码器和解码器进行训练,包括:
将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量;
将所述第二风格文本和所述编码向量经过所述文本风格迁移模型的解码器处理获得所述文本风格迁移模型输出的迁移文本;
根据所述迁移文本和所述第二风格文本计算损失值;
根据所述损失值调整所述文本风格迁移模型的模型参数以训练所述文本风格迁移模型。


3.如权利要求1所述的训练方法,其特征在于,将所述第一风格文本输入至所述文本风格分类模型的编码器和分类器进行训练,包括:
将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量;
将所述编码向量经过所述文本风格分类模型的分类器处理获得所述文本风格分类模型输出的正例概率;
根据所述正例概率调整所述文本风格分类模型参数以训练所述文本风格分类模型。


4.如权利要求2或3所述的训练方法,其特征在于,所述编码器包括第一嵌入层和n个依次连接的编码层;
将所述第一风格文本输入至所述编码器,获得所述编码器输出的与所述第一风格文本对应的编码向量,包括:
将所述第一风格文本输入至所述第一嵌入层做嵌入化处理,获得所述第一风格文本对应的嵌入化向量;
将所述嵌入化向量依次输入至每个所述编码层做编码处理,获得最后一个编码层输出的编码向量。


5.如权利要求2所述的训练方法,其特征在于,所述解码器包括第二嵌入层、m个依次连接的解码层和输出层;
将所述第二风格文本和所述编码向量经过所述文本风格迁移模型的解码器处理获得所述文本风格迁移模型输出的迁移文本,包括:
S51、将所述第二风格文本输入至所述第二嵌入层做嵌入化处理,获得初始参考编码向量;
S52、将所述编码向量和所述初始参考编码向量输入至第1个解码层,得到所述第1个解码层输出的解码向量;
S53、将所述解码向量和第j-1个解码层输出的解码向量输入至第j个解码层,得到第j个解码层输出的解码向量,其中2≤j≤m;
S54、将j自增1,判断j是否大于m,若是,则执行步骤S55,若否,继续执行步骤S53;
S55、将第m个解码层输出的解码向量经过输出层的归一化处理,获得对应的迁移文本。

...

【专利技术属性】
技术研发人员:何苏王亮赵薇刘金龙柳景明郭常圳
申请(专利权)人:北京猿力未来科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1