将数字视频中的口形和动作与替代音频匹配制造技术

技术编号:28489903 阅读:16 留言:0更新日期:2021-05-19 22:09
一种用于将数字视频中的口形和动作与替代音频匹配的方法,其包括从源数字视频导出包括演员的口形的面部姿势序列。在面部姿势序列中的每个姿势对应于每个音频样本的中间位置。该方法进一步包括基于面部姿势序列和源数字视频生成动画面部网格、将被跟踪的表情从动画面部网格或目标视频传输到源视频以及生成包括被跟踪的表情的传输的粗略输出视频。该方法进一步包括至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频来生成完成的视频。一台或多台计算机可以执行该方法的操作。多台计算机可以执行该方法的操作。多台计算机可以执行该方法的操作。

【技术实现步骤摘要】
【国外来华专利技术】将数字视频中的口形和动作与替代音频匹配


[0001]本申请涉及数字图像处理,更具体地,涉及用于将数字视频中的口形和动作与替代音频匹配的系统或方法。

技术介绍

[0002]视频内容的制作者通常希望使用与电影中记录的图像不匹配的录制音频。这可能是由于几个原因造成的,包括,例如,在视频捕获后出于创作原因或法律原因改变对话时,或者在对话以演员在表演期间所说的不同的语言录制以分发给不同的观众时。然而,视频内容的消费者往往会注意到,嘴部动作或口形与口语对话在时间上不匹配。这些品质中的任何一个不匹配都会分散消费者的注意力,减少难以置信的悬念,并且降低对视频内容的享受。
[0003]录制视频的每一帧都可以在视频捕获后进行更改,以便演员的嘴部动作与音频轨迹中的伴有的语音和对话更好地对齐。然而,用于更改录制视频的方法过于耗时和昂贵,在大多数版本中都不可行,从而降低了电影和包含与演员的嘴部动作和相关的面部动作不匹配的对话的其他视频内容的吸引力、覆盖范围和盈利能力。任何先前的方法都无法以可行的成本获得足够高的质量,用于电影或其他商业视频内容的分发。由于演员和商业视频中使用的图像捕获参数的多样性,用于训练神经网络和其他机器学习算法的材料很少有足够的数量来消除对话和嘴部动作之间的明显的不匹配,而获得足够的训练视频可能是昂贵的或不可能的。
[0004]因此,希望开发新方法和其他新技术,以便在图像和声音的初始捕获之后,将数字视频中的口形和动作与替代音频匹配,从而克服现有技术的这些和其他限制。

技术实现思路

[0005]本
技术实现思路
和以下详细说明应解释为整体公开的补充部分,这些部分可以包括冗余主题和/或补充主题。任何章节中的省略都不表示整体应用程序中描述的任何元素的优先级或相对重要性。如从各个公开中显而易见的,各章节之间的差异可以包括替代实施例的补充公开、附加细节或使用不同术语的相同实施例的替代描述。
[0006]在本专利技术的一个方面中,一种用于将数字视频中的口形和动作与替代音频匹配的方法包括从演员出现的源数字视频中导出包括演员的口形在内的面部姿势序列。在形状序列中的每个形状对应于替代音频的每个样本的中间位置。该方法进一步包括基于面部姿势序列和源数字视频生成动画面部网格。可选地,该方法可以包括通过渲染动画面部网格来生成目标视频。该方法进一步包括将被跟踪的表情从动画面部网格或目标视频中的至少一个传输到源视频,并生成包括被跟踪的表情的传输的粗略输出视频。该方法进一步包括至少部分地通过使用在动画面部网格或目标视频中的口形上训练的参数化自动编码器来细化粗略视频,生成完成的视频。一台或多台计算机可以执行该方法的操作。
[0007]本文所描述的方法提供一种用于修改电影图像或其他视频的自动过程,使得出现
在图像中的人的口形和嘴部动作的时间在伴有与原始视频记录的语音不匹配的音频记录时看起来更自然。这些方法的应用可以包括,例如,在后期制作中改变视频内容的对话、提供经翻译的对话、或在发布后编辑内容以避免由于经改变的文化规范或其他文化多样性因素而犯罪、以避免法律责任、以提高创作影响或出于任何其他原因。
[0008]一种用于执行该方法的装置可以包括耦合到存储器和一个或多个端口的至少一个计算机处理器,该一个或多个端口包括至少一个输入端口和至少一个输出端口(例如,台式计算机、膝上型计算机、平板计算机、智能手机、PDA等)。计算机处理器可以包括例如微处理器、微控制器、片上系统或其它处理电路。如本文所使用的,“处理器”指计算机处理器。
[0009]为了实现上述及相关目的,一个或多个示例包括下文中充分描述并在权利要求中特别指出的特征。以下描述和附图详细地阐述了某些说明性方面,并且仅指示可采用示例的原理的各种方式中的一些。当结合附图和公开的示例考虑时,从以下详细描述中,其他优点和新颖特征将变得显而易见,其中包含所有这些方面及其等效物。
附图说明
[0010]当结合附图时,根据下面阐述的详细描述,本公开的特征、性质和优点将变得更加显而易见,在整个说明书和附图中,相同的附图标记相应地标识相同的元件。
[0011]图1是图示将数字视频中的口形和动作与替代音频匹配的概述的示意图。
[0012]图2是图示可以使用本申请的新颖方法和装置的计算机网络的示例的框图。
[0013]图3是图示用于执行本方法的操作的计算机的示意图。
[0014]图4是图示在图像和声音的初始捕获之后用于将数字视频中的口形和动作与替代音频匹配的方法的简明概述的框图。
[0015]图5至图8是图示图4所图解的方法的更详细方面的流程图。
[0016]图9是图示使用替代措辞的图4的方法和操作的流程图。
[0017]图10是图示用于图9所示方法的装置或系统的组件的概念框图。
具体实施方式
[0018]现在参考附图描述各个方面。在以下描述中,为了解释的目的,阐述了许多具体细节,以便提供对一个或多个方面的透彻理解。然而,显而易见的是,可以在没有这些具体细节的情况下实践各个方面。在其它实例中,以框图形式示出众所周知的结构和设备以便于描述这些方面和元件的新颖组合。
[0019]图1示出通过一个或多个计算机处理器将数字视频中的口形和动作与数字视频中的替代音频100相匹配的概述。如本领域所知,动作通过图像序列在视频中被动画,图像序列可以是摄影的、计算机生成的、手绘的或前述的任何组合。在102处,原始或“输入”场景由数字音频

视频中的音频

视频记录系统记录。所记录的场景包括记录在音频轨道中的演员讲原始台词或即兴演讲(例如,作为对话或独白)的图像。任选地,如果源音频

视频是模拟(例如,胶片)格式,则可以在104处通过模数转换器将模拟记录转换为数字音频

视频。事实上,当前技术的一个用例包括将新译本和对话配音到数字时代之前制作的老电影中。这项技术对于更新的原始数字内容也很有用。在106处,音频记录器记录新的和不同的语音106,制作者希望用场景中所使用的语音替换原始音频。以下三个过程108、110、112将在图4至图
9中更详细地描述,并且对应于使演员的嘴部的形状和动作与替换语音匹配的三个基本操作。本技术包括将嘴部动作的形状和时间与所说的单词相匹配,并且不仅限于匹配动作的时间。
[0020]在较高的层次上,第一计算机过程108创建面部姿势序列,该面部姿势序列包括当对新语音进行动画时大致同步的口形;换言之,演员的嘴部的经动画的骨骼动画(armature)与期望的替代音频轨道匹配。在一些实施例中,口形可以是稀疏的,并且限于从视频帧提取然后归一化的关键点,其中处理器确定关键点几何以匹配新音频。第二计算机过程110基于姿势序列和用于嘴部动作、面部表情和网格姿势的三组神经网络处理来创建匹配的数字渲染的音频

视频文件的粗略近似。第三计算机过程112使用另一机器学习处理基于讲替换语音的模型的数字渲染的视频或其底层动画网格来细化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于将数字视频中的口形和动作与替代音频匹配的方法,所述方法包括:从源数字视频导出包括演员的口形的面部姿势序列,其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置;基于所述面部姿势序列和所述源数字视频生成动画面部网格;将被跟踪的表情从所述动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频并且生成包括所述被跟踪的表情的传输的粗略输出视频;以及至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频,生成完成的视频。2.根据权利要求1所述的方法,其中生成所述面部姿势序列包括对从语音对话记录中获取的音频样本序列进行采样。3.根据权利要求2所述的方法,其中生成所述面部姿势序列包括使用文本转语音合成器将文本转换为语音。4.根据权利要求3所述的方法,其中生成所述面部姿势序列进一步包括从所述演员的图像中提取所述口形的关键点、对所述关键点进行归一化,并对归一化的关键点应用主成分分析即PCA来导出所述口形。5.根据权利要求4所述的方法,其中生成所述面部姿势序列进一步包括导出每个所述样本的mel频率倒谱系数即MFCC,并使用递归神经网络将每个MFCC系数映射到所述口形中的一个。6.根据权利要求2所述的方法,其中生成所述面部姿势序列进一步包括:将线性特征与非线性特征分离,通过使用深度神经网络处理所述线性特征以进行格式分析来生成语音特征的时变序列,以及利用深度神经网络对面部关节的所述非线性特征进行处理,生成在所述中间位置处的面部姿势。7.根据权利要求6所述的方法,其中生成所述面部姿势序列进一步包括通过深度神经网络生成顶点定义的面部姿势以用于输出,和将所述姿势保存在所述面部姿势序列中。8.根据权利要求1所述的方法,其中将被跟踪的表情从所述目标视频传输到所述源视频进一步包括合成所述嘴部区域并渲染所述粗略输出视频的每一帧。9.根据权利要求1所述的方法,其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括通过随机更改在所述目标集中的帧来生成用于所述自动编码器的训练集。10.根据权利要求1所述的方法,其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括在所述演员的嘴部周围裁剪所述粗略输出视频和所述目标视频的相应区域。11.根据权利要求1所述的方法,其中使用在所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频进一步包括将来自所述目标视频的经处理图像对齐并插入到所述粗略输出视频中。12.根据权利要求1所述的方法,进一步包括从所述动画面部网格渲染目标视频,其中传输所述被跟踪的表情包括将所述表情从所述目标视频传输到所述源视频。13.一种用于将数字视频中的口形和动作与替代音频匹配的装置,所述装置包括耦合到计算机存储器的处理器,所述存储器保持程序指令,当由所述处理器执行所述程序指令
时,使所述装置执行:从源数字视频导出包括演员的口形的面部姿势序列,其中所述面部姿势序列中的每个姿势对应于所述替代音频的每个样本的中间位置;基于所述面部姿势序列和所述源数字视频生成动画面部网格;将被跟踪的表情从动画面部网格或从其渲染的目标视频中的至少一个传输到所述源视频,并生成包括所述被跟踪的表情的传输的粗略输出视频;以及至少部分地通过使用在所述动画面部网格或所述目标视频中的口形上训练的参数化自动编码器来细化所述粗略视频,生成完成的视频。14.根据权利要求13所述的装置,其中所述存储器保持用于以下操作的进一步指令:至少部分地通过对从语音对话记录中获取的音频样本序列进行采样来生成所述面部姿势序列。15.根据权利要求14所述的装置,其中所述存储器保持用于以下操作的进一步指令:至少部分地通过使用文本转语音合成器将...

【专利技术属性】
技术研发人员:T
申请(专利权)人:华纳兄弟娱乐公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1