【技术实现步骤摘要】
一种基于三维耦合CNN的多视角音唇一致性判决方法
[0001]本申请涉及音视频处理领域,特别涉及一种基于三维耦合CNN的多视角音唇一致性判决方法。
技术介绍
[0002]音唇一致性判决,即语音唇动一致性判决,是通过发音过程中唇部运动与音频变化之间的联系来判断音视频是否同时录制、是否出自同一人、是否出自同一句话。
[0003]现有的音唇一致性判决方法均主要对正面角度采集的唇动视频数据进行处理和分析,实验用的数据库也以正面拍摄数据集为主,而缺乏对唇部角度变化对一致性判决影响的考虑。此外,现有的音唇一致性判决方法未考虑时间维度上多帧间的运动信息,不能有效反映唇动过程中唇形连续变化的时空特性。
技术实现思路
[0004]本申请的目的在于提供一种基于三维耦合CNN的多视角音唇一致性判决方法,其能够改善上述问题。
[0005]本申请的实施例是这样实现的:
[0006]第一方面,本申请提供一种基于三维耦合卷积神经网络(Convolutional Neural Network,CNN)的多视角音唇一致 ...
【技术保护点】
【技术特征摘要】
1.一种基于三维耦合CNN的多视角音唇一致性判决方法,其特征在于,包括:获取待处理音唇数据,将所述待处理音唇数据拆分为待处理音频数据和待处理视频数据;通过生成对抗网络根据所述待处理视频数据中的非正面唇画面生成对应的重构正面唇画面,以所述重构正面唇画面替换所述待处理视频数据中的所述非正面唇画面,将所述重构正面唇画面对应的音频数据分别加入所述待处理音频数据;分别根据所述待处理音频数据和所述待处理视频数据,基于时间连续性构建待处理音频三维张量和待处理视频三维张量;通过双模态异构卷积网络模型将所述待处理音频三维张量和所述待处理视频三维张量的特征映射到同一表示空间;根据所述双模态异构卷积网络的耦合损失函数判断所述待处理音唇数据的一致性。2.根据权利要求1所述的基于三维耦合CNN的多视角音唇一致性判决方法,其特征在于,所述生成对抗网络为自映射监督循环生成对抗网络,包括正面唇生成器、非正面唇生成器、正面唇判别器和非正面唇判别器;所述正面唇生成器用于根据所述待处理视频数据中的非正面唇画面生成对应的重构正面唇画面;所述正面唇判别器用于判断对所述重构正面唇画面和所述待处理视频数据中的真实正面唇画面进行真假判断;所述非正面唇生成器用于将所述重构正面唇画面还原为与所述待处理视频数据中的所述非正面唇画面对应的重构非正面唇画面;所述非正面唇判别器用于判断对所述重构非正面唇画面和所述待处理视频数据中的真实的所述非正面唇画面进行真假判断。3.根据权利要求2所述的基于三维耦合CNN的多视角音唇一致性判决方法,其特征在于,所述自映射监督循环生成对抗网络的总损失为:L(G
X
,G
Y
,D
X
,D
Y
)=L
GAN
(G
X
,D
X
)+L
GAN
(G
Y
,D
Y
)+λL
cyc
(G
X
,G
Y
)+μL
S
(G
X
,G
Y
);其中,G
Y
为所述正面唇生成器对应的函数,G
X
为所述非正面唇生成器对应的函数,D
Y
为所述正面唇判别器对应的函数,D
X
为所述非正面唇判别器对应的函数,L
GAN
(G
X
,D
X
)和L
GAN
(G
Y
,D
Y
)为对抗损失,L
cyc
(G
X
,G
Y
)为重构损失,L
S
(G
X
,G
Y
)为自映射检验损失,λ和μ分别为所述重构损失和所述自映射检验损失的权重。4.根据权利要求3所述的基于三维耦合CNN的多视角音唇一致性判决方法,其特征在于,所述自映射监督循环生成对抗网络的所述对抗损失包括:其中,y~p
data
(y)表示所述所述待处理视频数据中的真实正面唇画面,x~p
data
(x)表示所述所述待处理视频数据中真实的所述非正面唇画面,E(
·
)表示求期望;所述自映射监督循环生成对抗网络的所述重构损失满足下式:
所述自映射监督循环生成对抗网络的所述自映射检验损失满足下式:5.根据权利要求1所述的基于三维耦合CNN的多视角音唇一致性判决方法,其特征在于,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。