将数字视频中的口形和动作与替代音频匹配制造技术

技术编号：28489903 阅读：31 留言：0更新日期：2021-05-19 22:09

一种用于将数字视频中的口形和动作与替代音频匹配的方法，其包括从源数字视频导出包括演员的口形的面部姿势序列。在面部姿势序列中的每个姿势对应于每个音频样本的中间位置。该方法进一步包括基于面部姿势序列和源数字视频生成动画面部网格、将被跟踪的表情从动画面部网格或目标视频传输到源视频以及生成包括被跟踪的表情的传输的粗略输出视频。该方法进一步包括至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频来生成完成的视频。一台或多台计算机可以执行该方法的操作。多台计算机可以执行该方法的操作。多台计算机可以执行该方法的操作。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】将数字视频中的口形和动作与替代音频匹配

[0001]本申请涉及数字图像处理，更具体地，涉及用于将数字视频中的口形和动作与替代音频匹配的系统或方法。

技术介绍

[0002]视频内容的制作者通常希望使用与电影中记录的图像不匹配的录制音频。这可能是由于几个原因造成的，包括，例如，在视频捕获后出于创作原因或法律原因改变对话时，或者在对话以演员在表演期间所说的不同的语言录制以分发给不同的观众时。然而，视频内容的消费者往往会注意到，嘴部动作或口形与口语对话在时间上不匹配。这些品质中的任何一个不匹配都会分散消费者的注意力，减少难以置信的悬念，并且降低对视频内容的享受。
[0003]录制视频的每一帧都可以在视频捕获后进行更改，以便演员的嘴部动作与音频轨迹中的伴有的语音和对话更好地对齐。然而，用于更改录制视频的方法过于耗时和昂贵，在大多数版本中都不可行，从而降低了电影和包含与演员的嘴部动作和相关的面部动作不匹配的对话的其他视频内容的吸引力、覆盖范围和盈利能力。任何先前的方法都无法以可行的成本获得足够高的质量，用于电影或其他商业视频内容的分发。由于演员和商业视频中使用的图像捕获参数的多样性，用于训练神经网络和其他机器学习算法的材料很少有足够的数量来消除对话和嘴部动作之间的明显的不匹配，而获得足够的训练视频可能是昂贵的或不可能的。
[0004]因此，希望开发新方法和其他新技术，以便在图像和声音的初始捕获之后，将数字视频中的口形和动作与替代音频匹配，从而克服现有技术的这些和其他限制。

技术实现思路

[0005...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于将数字视频中的口形和动作与替代音频匹配的方法，所述方法包括：从源数字视频导出包括演员的口形的面部姿势序列，其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置；基于所述面部姿势序列和所述源数字视频生成动画面部网格；将被跟踪的表情从所述动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频并且生成包括所述被跟踪的表情的传输的粗略输出视频；以及至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频，生成完成的视频。2.根据权利要求1所述的方法，其中生成所述面部姿势序列包括对从语音对话记录中获取的音频样本序列进行采样。3.根据权利要求2所述的方法，其中生成所述面部姿势序列包括使用文本转语音合成器将文本转换为语音。4.根据权利要求3所述的方法，其中生成所述面部姿势序列进一步包括从所述演员的图像中提取所述口形的关键点、对所述关键点进行归一化，并对归一化的关键点应用主成分分析即PCA来导出所述口形。5.根据权利要求4所述的方法，其中生成所述面部姿势序列进一步包括导出每个所述样本的mel频率倒谱系数即MFCC，并使用递归神经网络将每个MFCC系数映射到所述口形中的一个。6.根据权利要求2所述的方法，其中生成所述面部姿势序列进一步包括：将线性特征与非线性特征分离，通过使用深度神经网络处理所述线性特征以进行格式分析来生成语音特征的时变序列，以及利用深度神经网络对面部关节的所述非线性特征进行处理，生成在所述中间位置处的面部姿势。7.根据权利要求6所述的方法，其中生成所述面部姿势序列进一步包括通过深度神经网络生成顶点定义的面部姿势以用于输出，和将所述姿势保存在所述面部姿势序列中。8.根据权利要求1所述的方法，其中将被跟踪的表情从所述目标视频传输到所述源视频进一步包括合成所述嘴部区域并渲染所述粗略输出视频的每一帧。9.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括通过随机更改在所述目标集中的帧来生成用于所述自动编码器的训练集。10.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括在所述演员的嘴部周围裁剪所述粗略输出视频和所述目标视频的相应区域。11.根据权利要求1所述的方法，其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括将来自所述目标视频的经处理图像对齐并插入到所述粗略输出视频中。12.根据权利要求1所述的方法，进一步包括从所述动画面部网格渲染目标视频，其中传输所述被跟踪的表情包括将所述表情从所述目标视频传输到所述源视频。13.一种用于将数字视频中的口形和动作与替代音频匹配的装置，所述装置包括耦合到计算机存储器的处理器，所述存储器保持程序指令，当由所述处理器执行所述程序指令
时，使所述装置执行：从源数字视频导出包括演员的口形的面部姿势序列，其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置；基于所述面部姿势序列和所述源数字视频生成动画面部网格；将被跟踪的表情从动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频，并生成包括所述被跟踪的表情的传输的粗略输出视频；以及至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频，生成完成的视频。14.根据权利要求13所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过对从语音对话记录中获取的音频样本序列进行采样来生成所述面部姿势序列。15.根据权利要求14所述的装置，其中所述存储器保持用于以下操作的进一步指令：至少部分地通过使用文本转语音合成器将...

【专利技术属性】
技术研发人员：T，
申请(专利权)人：华纳兄弟娱乐公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人