利用条件变分自动编码器进行标签平滑的翻译方法及系统技术方案

技术编号:35899448 阅读:15 留言:0更新日期:2022-12-10 10:34
本发明专利技术提出一种利用条件变分自动编码器进行标签平滑的翻译方法和系统,包括:将翻译训练文本输入具有条件变分自动编码器的神经网络翻译模型,经过该神经网络翻译模型的编解码器,得到解码器的输出向量,将该输出向量输入该条件变分自动编码器,计算出隐变量,并利用隐变量重构出输出向量,最后用该输出向量替换原有的输出向量,预测标签概率分布。在训练阶段,对比该标签概率分布和原输出向量得出的概率分布构成翻译损失;对比条件变分自动编码器的先验后验输出构成自编码器损失。这两种损失函数加上原有输出向量和后验输出向量分别计算出的标签概率分布损失,一同构成该神经网络翻译模型的训练目标;以神经网络翻译模型执行翻译。行翻译。行翻译。

【技术实现步骤摘要】
利用条件变分自动编码器进行标签平滑的翻译方法及系统


[0001]本专利技术涉及机器翻译
,并特别设计一种利用条件变分自动编码器进行标签平滑的翻译方法及系统。

技术介绍

[0002]在神经机器翻译方法中,模型的词表规模庞大,而训练文本中每次梯度更新时涉及的数据相对稀疏,如果仅采用硬标签作为拟合目标的训练方式,将会导致大量词语的向量表示缺乏训练。当前常用的解决方法是使用均匀分布进行标签平滑,使用硬标签与平均分布的加权作为拟合目标训练模型。即更新训练的目标词语的同时,朝相反梯度方向、以均匀的向量长度更新其它所有词语。
[0003]现有的标签平滑技术将概率平均分配给其它所有类别,认为所有类别的可能性是相等的,这个先验假设显然是不合理的。例如,对于语言模型来说,给定前缀“A国总统访问”,硬标签为“B国”,在一个较好的平滑标签中,“C国”、“D国”、“E国”等国家词汇的概率应该明显高于“苹果”、“天气”、“袭击”等不相关的词汇,而不是无差别地赋予所有词相同的概率。
[0004]现有技术按照与硬标签的相似度将概率分配给其它标签,提出基于类别相似度的标签平滑方法,并在图像分类任务上取得了显著效果,但是词语生成任务是一个超多分类任务,依次计算硬标签和其它标签的相似度会带来极高的计算复杂度,并且实验证明该方法的性能提升有限。
[0005]现有技术在模型训练过程中产生的标签可以用于自身的标签平滑,提出将每轮训练中模型产生的属于同一标签的预测分布的平均作为该标签在下轮训练的平滑标签。该方法在图像分类任务取得较大提升,但是在机器翻译任务上表现一般,且需要较大的存储开销。
[0006]另一类有效的标签平滑方法是知识蒸馏。知识蒸馏起初被用于压缩模型,即使用训练好的大模型蒸馏小模型,从而在性能和效率之间取得平衡。近年来,将知识蒸馏与标签平滑联系起来,认为知识蒸馏实际上是一种优秀的标签平滑方法。作为知识蒸馏的一种,自蒸馏是使用训练好的相同结构、容量的模型来蒸馏重新初始化的模型,该方法能够明显提升模型的性能,是一种简单有效的标签平滑方法。但是,自蒸馏具有训练代价大、标签生成器过于臃肿的缺点。

技术实现思路

[0007]本专利技术的目的是解决机器翻译应用中标签平滑技术的速度和质量问题,提出了一种基于条件变分自动编码器的标签平滑方法,在较小额外训练时间的情况下取得了显著的翻译质量提升。
[0008]针对现有技术的不足,本专利技术提出一种利用条件变分自动编码器进行标签平滑的翻译方法,其中
[0009]步骤1、将翻译训练文本输入具有条件变分自动编码器的神经网络翻译模型,经过该神经网络翻译模型的编解码器,得到解码器的输出向量,将该输出向量输入该条件变分自动编码器,计算出隐变量,并利用隐变量重构出输出向量,最后用该输出向量替换原有的输出向量,预测标签概率分布。在训练阶段,对比该标签概率分布和原输出向量得出的概率分布构成翻译损失;对比条件变分自动编码器的先验后验输出构成自编码器损失。这两种损失函数加上原有输出向量和后验输出向量分别计算出的标签概率分布损失,一同构成该神经网络翻译模型的训练目标;
[0010]步骤2、将待翻译文本输入训练完成后的该神经网络翻译模型,通过隐变量重构的输出向量计算输出的标签概率分布,选择该标签概率分布中最大概率对应的标签,得到该待翻译数据的翻译结果。
[0011]所述的利用条件变分自动编码器进行标签平滑的翻译方法,其中该步骤1包括:使用四种损失函数训练出该神经网络翻译模型,四种损失函数分别为经过变分自动编码器前后的两个输出向量的相似性损失,隐变量先验分布和后验分布的相似性损失,通过隐变量后验分布重构出输出向量预测的标签概率损失,和原有输出向量直接预测的标签概率损失。
[0012]所述的利用条件变分自动编码器进行标签平滑的翻译方法,其中该步骤1包括:
[0013]该条件变分自动编码器包括先验部分和后验部分,分别建立先验分布p
θ
和后验分布p
θ
的方差和均值由该解码器的输出向量经过FFN网络和线性映射得到,的方差和均值由和第t时间步的标准答案y
t
的向量表示经过FFN网络和线性映射得到;
[0014]该神经网络翻译模型基于解码器的输出向量计算出隐变量z
t
的先验分布从该分布中采样出隐变量z
t
,基于z
t
重构解码器的输出向量,该向量经过线性变换和softmax层后得z
t
的先验分布服从均值为μ
prior
方差为σ
prior
的正态分布:
[0015][0016]logσ
prior
=c
prior
W
σ1
[0017]μ
prior
=c
prior
W
μ1
[0018]表示隐变量z
t
的后验分布,从后验分布中采样出一个隐变量z
t
,基于z
t
重构一个输出向量,该向量经过线性变换和softmax得到z
t
的后验均值和方差由以下公式得出:
[0019][0020]c
pposterior
=layernorm(tanh(h
posterior
W4)W5+h
posterior
)
[0021]logσ
posterior
=c
posterior
W
σ2
[0022]μ
posterior
=c
posterior
W
μ2
[0023]翻译模型的损失:
[0024][0025]条件变分自动编码器的损失函数:
[0026][0027]式中J表示目标句子Y的句长;
[0028]该最终损失函数为:
[0029]L(X,Y)=(1

β)L
MT
(X,Y)+βL
CVAE
(X,Y)
[0030]β是控制神经网络翻译模型和条件变分自动编码器损失函数比重的超参。
[0031]本专利技术还提出了一种利用条件变分自动编码器进行标签平滑的翻译系统,
[0032]其中
[0033]训练模块,用于将翻译训练文本输入具有条件变分自动编码器的神经网络翻译模型,经过该神经网络翻译模型的编解码器,得到解码器的输出向量,将该输出向量输入该条件变分自动编码器,计算出隐变量,并利用隐变量重构出输出向量,最后用该输出向量替换原有的输出向量,预测标签概率分布。在训练阶段,对比该标签概率分布和原输出向量得出的概率分布构成翻译损失;对比条件变分自动编码器的先验后验输出构成自编码器损失。这两种损失函数加上原有输出向量和后验输出向量分别计算出的标签概率分布损失,一同构成该神经网络翻译模型的训练目标;
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用条件变分自动编码器进行标签平滑的翻译方法,其特征在于,步骤1、将翻译训练文本输入具有条件变分自动编码器的神经网络翻译模型,经过该神经网络翻译模型的编解码器,得到解码器的输出向量,将该输出向量输入该条件变分自动编码器,计算出隐变量,并利用隐变量重构出输出向量,最后用该输出向量替换原有的输出向量,预测标签概率分布。在训练阶段,对比该标签概率分布和原输出向量得出的概率分布构成翻译损失;对比条件变分自动编码器的先验后验输出构成自编码器损失。这两种损失函数加上原有输出向量和后验输出向量分别计算出的标签概率分布损失,一同构成该神经网络翻译模型的训练目标;步骤2、将待翻译文本输入训练完成后的该神经网络翻译模型,通过隐变量重构的输出向量计算输出的标签概率分布,选择该标签概率分布中最大概率对应的标签,得到该待翻译数据的翻译结果。2.如权利要求1所述的利用条件变分自动编码器进行标签平滑的翻译方法,其特征在于,该步骤1包括:使用四种损失函数训练出该神经网络翻译模型,四种损失函数分别为经过变分自动编码器前后的两个输出向量的相似性损失,隐变量先验分布和后验分布的相似性损失,通过隐变量后验分布重构出输出向量预测的标签概率损失,和原有输出向量直接预测的标签概率损失。3.如权利要求1所述的利用条件变分自动编码器进行标签平滑的翻译方法,其特征在于,该步骤1包括:该条件变分自动编码器包括先验部分和后验部分,分别建立先验分布p
θ
和后验分布p
θ
的方差和均值由该解码器的输出向量经过FFN网络和线性映射得到,的方差和均值由和第t时间步的标准答案y
t
的向量表示经过FFN网络和线性映射得到;该神经网络翻译模型基于解码器的输出向量h(x,y
<t
)计算出隐变量z
t
的先验分布p
θ
(z
t
|x,y
<t
),从该分布中采样出隐变量z
t
,基于z
t
重构解码器的输出向量,该向量经过线性变换和softmax层后得z
t
的先验分布服从均值为μ
prior
方差为σ
prior
的正态分布:logσ
prior
=c
prior
W
σ1
μ
prior
=c
prior
W
μ1
表示隐变量z
t
的后验分布,从后验分布中采样出一个隐变量z
t
,基于z
t
重构一个输出向量,该向量经过线性变换和softmax得到z
t
的后验均值和方差由以下公式得出:c
pposterior
=layernorm(tanh(h
posterior
W4)W5+h
posterior
)logσ
posterior
=c
posterior
W
σ2
μ
posterior
=c
posterior
W
μ2
翻译模型的损失:条件变分自动编码器的损失函数:式中J表示目标句子Y的句长;该最终损失函数为:L(X,Y)=(1

β)L
MT
(X,Y)+βL
CVAE
(X,Y)β是控制神经网络翻译模型和条件变分自动编码器损失函数比重的超参。4.一种利用条件变分自动编码器进行标签平滑的翻译系统,其特征在于,训练模块,用于将翻译训练文本输入具有条件变分自动编码器的...

【专利技术属性】
技术研发人员:冯洋郭登级黄浪林
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1