【技术实现步骤摘要】
一种基于变分自编码器的表情序列自动生成方法
[0001]本专利技术涉及一种基于变分自编码器的表情序列自动生成方法。
技术介绍
[0002]VAE作为生成模型的一种,可以用于表情序列生成,用两张表情图片通过潜变量插值生成表情变化的连续序列,补全整个变化过程。传统的VAE采用无监督学习方法将复杂的数据映射到一个低维空间中,忽略了数据中显著的特征。而对于表情数据来说,最显著的特征就是表情类别和强度。故而用传统的VAE进行表情序列的生成任务时,由于其不具备对表情强度的感知能力,生成的表情序列连续性较差,对于幅度小的表情无法生成自然的表情变化过程。
[0003]深度度量学习通过数据学习一个从原始数据空间到高维欧氏空间的映射,这个映射的目标就是同类数据在这个空间中距离较近,异类数据在这个空间中距离较远。损失函数在深度度量学习中起到了非常大的作用,其中基于三元组的三元损失是常用的损失函数。
[0004]变分自编码器是一类生成模型,其结构与自编码器类似,也是由编码器和解码器构成的。编码器将数据的高级特征映射到低级表征(潜在向 ...
【技术保护点】
【技术特征摘要】
1.一种基于变分自编码器的表情序列自动生成方法,其特征在于,包括如下步骤:步骤1,预训练变分自编码器VAE;步骤2,生成三元组:使用Oulu
‑
CASIA数据集,对Oulu
‑
CASIA数据集中的每一个视频序列进行采样,生成等间隔的三帧图片,每三帧构成一个三元组;步骤3,自监督训练变分自编码器VAE:使用深度度量学习方法,利用三元组中隐含的表情距离信息,用三元损失自监督训练变分自编码器VAE;步骤4,生成表情序列。2.根据权利要求1所述的方法,其特征在于,步骤1包括以下步骤:步骤1
‑
1,变分自编码器VAE通过编码器encoder将图片x编码为一个潜向量然后通过解码器decoder将潜向量z解码重建为图片其中θ分别是编码器和解码器网络的参数,表示通过可参数化的一簇分布来近似z的后验分布,p
θ
(x|z)表示通过可参数化的一簇分布来近似x的分布;步骤1
‑
2,定义重建损失为L
recon
,用于度量输入图片和输出图片的差异,重建损失的权重因子为α:重因子为α:表示从编码器采样z之后用解码器重建x得到的对数似然;步骤1
‑
3,定义相对熵损失为L
KL
,相对熵损失的权重因子为β:p(z)是z的先验分布;D
KL
是相对熵,用于衡量任意两个概率分布p(x),q(x)之间的距离;步骤1
‑
4,在网络预训练过程中,前N1轮设置β=0,N1~N2轮次设置β线性增长至1,每N3轮次更新一次,训练损失为:αL
recon
+βL
KL
。3.根据权利要求2所述的方法,其特征在于,步骤1
‑
3中,D
KL
的计算公式为:4.根据权利要求3所述的方法,其特征在于,步骤2包括以下步骤:步骤2
‑
1,定义Oulu
‑
CASIA数据集中每一个视频序列为<x1,x2,x3,...,x
n
>,其中x
n
表示视频序列的第n帧;步骤2
‑
2,从每一个视频序列中按等间隔k采样出所有满足间隔条件的三元组,分别是<x
n
‑4,x
n
‑2,x
n
>,<x
n
‑4,x
n
‑2,x
n
>,<x
n
‑5,x
n
‑3,x
n
‑1>,<x
n
‑6,x
n
‑4,x
n
‑2>,<x
n
‑7,x
n
‑5,x
n
‑3>,&l...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。