用于确定嘴型的方法、装置、设备和存储介质制造方法及图纸

技术编号:21895654 阅读:18 留言:0更新日期:2019-08-17 16:00
本公开涉及用于确定嘴型的方法、装置、设备和存储介质。在一种基于语音来确定虚拟人物的嘴型的方法中,获取用于确定虚拟人物的嘴型的语音序列。按照预定步长将语音序列划分为多个语音片段。基于多个语音片段,分别生成描述多个语音片段的多个向量化表示。基于多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与多个语音片段的多个向量化表示相对应的嘴型序列。嘴型序列中的嘴型与多个语音片段中的语音片段的向量化表示相关联,以及嘴型生成模型是基于卷积神经网络获得的。采用上述实现方式,可以以更为有效的方式确定虚拟人物的嘴型,使得虚拟人物的嘴部动作更为自然。

Method, device, equipment and storage medium for determining nozzle shape

【技术实现步骤摘要】
用于确定嘴型的方法、装置、设备和存储介质
本公开内容的实现方式概括地涉及图像处理,并且更具体地,涉及用于确定基于语音确定嘴型的方法、装置、设备和计算机存储介质。
技术介绍
随着计算机技术的发展,目前已经出现了虚拟主播技术。在虚拟主播技术中,可以使用虚拟人物来播放新闻、天气预报、以及教学等方面的内容。真实人物在说话时,由于不同的发音对应于不同的嘴型,因而期望虚拟人物在播报时的嘴型能够逼真地模拟真实人物的嘴型。此时,如何以更为真实地方式确定虚拟人物的嘴型,成为一个技术难题。
技术实现思路
根据本公开内容的示例实现方式,提供了一种用于确定嘴型的方案。在本公开内容的第一方面中,提供了一种基于语音来确定虚拟人物的嘴型的方法。在该方法中,获取用于确定虚拟人物的嘴型的语音序列;按照预定步长将语音序列划分为多个语音片段;基于多个语音片段,分别生成描述多个语音片段的多个向量化表示;以及基于多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与多个语音片段的多个向量化表示相对应的嘴型序列,其中嘴型序列中的嘴型与多个语音片段中的语音片段的向量化表示相关联,以及嘴型生成模型是基于卷积神经网络获得的。在本公开内容的第二方面中,提供了一种基于语音来确定虚拟人物的嘴型的装置,包括:获取模块,配置用于获取用于确定虚拟人物的嘴型的语音序列;划分模块,配置用于按照预定步长将语音序列划分为多个语音片段;生成模块,配置用于基于多个语音片段,分别生成描述多个语音片段的多个向量化表示;以及确定模块,配置用于基于多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与多个语音片段的多个向量化表示相对应的嘴型序列,其中嘴型序列中的嘴型与多个语音片段中的语音片段的向量化表示相关联,以及嘴型生成模型是基于卷积神经网络获得的。在本公开内容的第三方面中,提供了一种设备。该设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开内容的第一方面的方法。在本公开内容的第四方面中,提供了一种其上存储有计算机程序的计算机可读介质,该程序在被处理器执行时实现根据本公开内容的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征,亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示意性示出了基于真实人物的视频来生成虚拟人物的视频的示意图;图2示意性示出了根据本公开内容的示例性实现方式的用于确定虚拟人物的嘴型的技术方案的框图;图3示意性示出了根据本公开内容的示例性实现方式的用于基于真实人物的视频来生成嘴型模型的方法的流程图;图4示意性示出了根据本公开内容的示例性实现方式的用于基于真实人物的视频来生成嘴型模型的过程的框图;图5示意性示出了根据本公开内容的示例性实现方式的用于基于卷积神经网络生成嘴型模型的过程的框图;图6示意性示出了根据本公开内容的示例性实现方式的用于确定虚拟人物的嘴型的方法的流程图;图7示意性示出了根据本公开内容的示例性实现方式的用于基于嘴型模型来生成虚拟人物的视频的框图;图8示意性示出了根据本公开内容的示例性实现方式的用于确定虚拟人物的嘴型的装置的框图;以及图9示出了能够实施本公开内容的多个实现方式的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式,然而应当理解的是,本公开内容可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是,本公开内容的附图及实现方式仅用于示例性作用,并非用于限制本公开内容的保护范围。在本公开内容的实现方式的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。随着图像处理技术的发展,目前已经出现了虚拟主播。例如,对于某些并不需要主播与观众做出更多交流的播报类节目,已经可以利用虚拟主播来代替真实人物并播报节目。此时,仅需要由播音员朗读期望播报内容的文本作为语音输入(或者,还可以基于语音生成技术来生成语音输入)。通过将语音输入与虚拟主播的画面相配合,即可获得由虚拟主播播报节目的视频。图1示意性示出了基于真实人物的视频110来生成虚拟人物的视频120的示意图100。将会理解,由于真实人物在朗读不同内容时,嘴部的形态是不同的。例如,在发出“啊”等读音时嘴部张开较大,而在发出“嗯”等读音时嘴部张开较小。为了更逼真地模拟真实人物的嘴型形态,目前已经提出了基于长短期记忆网络(LSTM)来预测虚拟人物在各个时间点处的嘴型的技术方案。如图1所示,基于LSTM技术,可以从真实人物的视频110中学习真实人物在不同发音情况下的嘴型。该技术方案基于主要成分分析PCA系数,并基于PCA系数的逆向变换来恢复嘴型关键点的位置。然而,采用LSTM确定的嘴型的变化较为平缓,与真实人物说话时嘴型差距较大。此时,如何以更为逼真的方式确定虚拟人物的嘴型,成为一个有待解决的问题。为了至少部分地解决上述技术方案中的不足,根据本公开的示例性实现,提供了一种用于确定嘴型的技术方案。在该技术方案中,提出了基于全卷积神经网络的模型,来确定虚拟人物的嘴型和音频片段之间的关联关系。具体地,提出的技术方案包括:生成嘴型模型和使用嘴型模型来确定虚拟人物的嘴型两个阶段。在下文中,将参见图2概括描述本公开的示例性实现的上述生成和使用阶段的过程。图2示意性示出了根据本公开内容的示例性实现方式的用于确定虚拟人物的嘴型的技术方案的框图200。如图2所示,从真实人物的视频110中的音频部分210提取多个语音片段的多个向量化表示220,并从该真实人物的视频的画面部分中提取与每个音频片段相对应的嘴型230。继而,可以基于提取的多个向量化表示220和多个嘴型230,使用卷积神经网络来训练嘴型模型240。在此,训练后的嘴型模型240可以描述多个嘴型230与多个向量化表示220之间的关联关系。将会理解,在此处的真实人物的视频110例如可以是由真实人物朗读的广泛覆盖各种发音的视频。在此的视频110的长度应当跨越较大时间范围。例如,可以采用播音员播报新闻的音频来作为视频110。根据本公开的示例性实现方式还包括使用嘴型模型240来确定虚拟人物在播报其他音频期间的嘴型。具体地,可以获取用于确定虚拟人物的嘴型的语音序列250。例如,如果期望生成虚拟人物播报天气预报的视频,则此时输入的语音序列250可以是天气预报的音频内容。可以基于输入的语音序列250和嘴型模型240,来确定包括虚拟人物播报天气预报期间的各个时间点的嘴型的嘴型序列本文档来自技高网
...

【技术保护点】
1.一种基于语音来确定虚拟人物的嘴型的方法,包括:获取用于确定所述虚拟人物的嘴型的语音序列;按照预定步长将所述语音序列划分为多个语音片段;基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及基于所述多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列,其中所述嘴型序列中的嘴型与所述多个语音片段中的语音片段的向量化表示相关联,以及所述嘴型生成模型是基于卷积神经网络获得的。

【技术特征摘要】
1.一种基于语音来确定虚拟人物的嘴型的方法,包括:获取用于确定所述虚拟人物的嘴型的语音序列;按照预定步长将所述语音序列划分为多个语音片段;基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及基于所述多个向量化表示,根据嘴型生成模型中包括的真实人物的嘴型与真实人物的语音片段的向量化表示之间的关联关系,确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列,其中所述嘴型序列中的嘴型与所述多个语音片段中的语音片段的向量化表示相关联,以及所述嘴型生成模型是基于卷积神经网络获得的。2.根据权利要求1所述的方法,其中基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示包括:针对所述多个语音片段中的语音片段,分别提取描述所述语音片段中的多个预定采样点处的语音的多个特征向量;以及基于所述多个特征向量生成针对所述语音片段的向量化表示。3.根据权利要求1所述的方法,其中确定与所述多个语音片段的所述多个向量化表示相对应的嘴型序列包括:针对所述多个向量化表示中的向量化表示,根据所述关联关系,确定与所述向量化表示相关联的嘴型。4.根据权利要求1所述的方法,进一步包括:获取包括所述虚拟人物的图像;基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列;以及基于所述图像序列和所述音频序列,生成包括所述虚拟人物的图像和语音的视频序列。5.根据权利要求4所述的方法,其中所述嘴型包括多个关键点,所述多个关键点描述所述真实人物的嘴型的轮廓。6.根据权利要求5所述的方法,其中基于所述嘴型序列中的各个嘴型,分别更新所述图像中的与所述虚拟人物的嘴部相关联的区域以形成图像序列包括:针对所述嘴型序列中的所述嘴型,利用所述嘴型包括的多个关键点,调整所述虚拟人物的所述图像中的嘴部图像。7.根据权利要求1所述的方法,进一步包括:获取所述嘴型生成模型,包括:获取所述真实人物的多个样本嘴型以及分别与所述多个样本嘴型相关联的所述真实人物的多个样本语音片段的多个样本向量化表示;以及基于所述多个样本嘴型与所述多个样本向量化表示,训练所述嘴型模型以使得所述嘴型模型描述所述多个样本嘴型与所述多个样本向量化表示之间的所述关联关系。8.根据权利要求7所述的方法,其中获取所述多个样本嘴型和所述多个样本向量化表示进一步包括:获取包括所述真实人物的图像和语音的视频序列;按照预定步长将所述视频序列划分为多个视频片段;针对所述多个视频片段中的视频片段,基于所述视频片段的视频部分,提取包括所述真实人物的样本嘴型的图像帧;基于所述视频片段的视频部分,生成描述所述真实人物语音的样本向量化表示。9.根据权利要求1所述的方法,其中:所述卷积神经网络是全卷积神经网络。10.一种基于语音来确定虚拟人物的嘴型的装置,包括:获取模块,配置用于获取用于确定所述虚拟人物的嘴型的语音序列;划分模块,配置用于按照预定步长将所述语音序列划分为多个语音片段;生成模块,配置用于基于所述多个语音片段,分别生成描述所述多个语音片段的多个向量化表示;以及确定模块,配...

【专利技术属性】
技术研发人员:李鑫刘霄赵翔李甫何栋梁龙翔迟至真文石磊丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1