用于控制三维虚拟人像口型变化的方法和装置制造方法及图纸

技术编号:22221715 阅读:26 留言:0更新日期:2019-09-30 02:56
本公开实施例公开了用于控制三维虚拟人像口型变化的方法和装置,涉及云计算领域。该方法的一具体实施方式包括:获取待播放语音;在上述待播放语音中以预设的步长滑动预设的时间窗口,得到至少一个语音片段;基于上述至少一个语音片段,生成针对上述待播放语音的口型控制参数序列;响应于播放上述待播放语音,基于上述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。该实施方式实现了基于待播放语音自动生成口型控制参数序列,从而高效率的渲染出语音和口型同步变化的三维虚拟人像。

【技术实现步骤摘要】
用于控制三维虚拟人像口型变化的方法和装置
本公开实施例涉及计算机
,具体涉及用于控制三维虚拟人像口型变化的方法和装置。
技术介绍
三维虚拟人像语音口型同步一直是研究的热点,并有着广泛的应用。常见的应用领域有影视动画、游戏娱乐等等。传统的三维虚拟人像语音口型同步技术,通常需要专业的技术人员根据给定的语音片段,手动设置三维虚拟人像的关键帧,并为这些关键帧中的三维虚拟人像调整口型。而关键帧之间的过渡帧中的三维虚拟人像的口型,则由动画引擎自动生成。举例来说,可以通过UE4(UnrealEngine4,虚幻4引擎)、Maya、Unity3D等动画引擎自动生成。这种方式非常依赖于技术人员的专业技能,逐帧的手动作业消耗大量的人力,且这种方式无法做到实时性。
技术实现思路
本公开实施例提出了用于控制三维虚拟人像口型变化的方法和装置。第一方面,本公开实施例提供了一种用于控制三维虚拟人像口型变化的方法,该方法包括:获取待播放语音;在上述待播放语音中以预设的步长滑动预设的上述时间窗口,得到至少一个语音片段;基于上述至少一个语音片段,生成针对上述待播放语音的口型控制参数序列;响应于播放上述待播放语音,基于上述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。在一些实施例中,上述基于上述至少一个语音片段,生成针对上述待播放语音的口型控制参数序列,包括:基于上述至少一个语音片段,生成二维特征矩阵序列;将上述二维特征矩阵序列输入预先建立的卷积神经网络,得到口型控制参数序列,其中,上述卷积神经网络用于表征二维特征矩阵与口型控制参数的对应关系。在一些实施例中,上述基于上述至少一个语音片段,生成二维特征矩阵序列,包括:对于上述至少一个语言片段中的语音片段,生成针对该语音片段的二维特征矩阵;根据上述至少一个语音片段在上述待播放语音中的顺序,将生成的至少一个二维特征矩阵拼接成二维特征矩阵序列。在一些实施例中,上述对于上述至少一个语言片段中的语音片段,生成针对该语音片段的二维特征矩阵,包括:将该语音片段划分为预设个语音子片段,其中,相邻的两个语音子片段之间部分重合;对于上述预设个语音子片段中的语音子片段,提取该语音子片段的特征,得到针对该语音子片段的语音特征向量;根据得到的预设个语音特征向量,生成针对该语音片段的二维特征矩阵。在一些实施例中,上述基于上述至少一个语音片段,生成针对上述待播放语音的口型控制参数序列,包括:对于上述至少一个语音片段中的语音片段,生成该语音片段的音素序列,以及对该音素序列进行编码,得到音素信息;将由至少一条音素信息组成的音素信息序列输入预先建立的口型关键点预测模型,得到由至少一条口型关键点信息组成的口型关键点信息序列,其中,上述口型关键点预测模型用于表征音素信息序列与口型关键点信息序列的对应关系;基于上述口型关键点信息序列,生成口型控制参数序列。在一些实施例中,上述基于上述口型关键点信息序列,生成口型控制参数序列,包括:对于上述口型关键点信息序列中的口型关键点信息,基于预先建立的样本口型关键点信息与样本口型控制参数的对应关系,得到该口型关键点信息对应的口型控制参数;基于得到至少一个口型控制参数,生成口型控制参数序列。在一些实施例中,上述口型关键点预测模型为循环神经网络,上述循环神经网络的循环体为长短期记忆网络。第二方面,本公开实施例提供了一种用于控制三维虚拟人像口型变化的装置,上述装置包括:获取单元,被配置成获取待播放语音;滑动单元,被配置成在上述待播放语音中以预设的步长滑动预设的上述时间窗口,得到至少一个语音片段;生成单元,被配置成基于上述至少一个语音片段,生成针对上述待播放语音的口型控制参数序列;控制单元,被配置成响应于播放上述待播放语音,基于上述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。在一些实施例中,上述生成单元包括:第一生成子单元,被配置成基于上述至少一个语音片段,生成二维特征矩阵序列;第二生成子单元,被配置成将上述二维特征矩阵序列输入预先建立的卷积神经网络,得到口型控制参数序列,其中,上述卷积神经网络用于表征二维特征矩阵与口型控制参数的对应关系。在一些实施例中,上述第一生成子单元包括:第一生成模块,被配置成对于上述至少一个语言片段中的语音片段,生成针对该语音片段的二维特征矩阵;第二生成模块,被配置成根据上述至少一个语音片段在上述待播放语音中的顺序,将生成的至少一个二维特征矩阵拼接成二维特征矩阵序列。在一些实施例中,上述第一生成模块进一步被配置成:将该语音片段划分为预设个语音子片段,其中,相邻的两个语音子片段之间部分重合;对于上述预设个语音子片段中的语音子片段,提取该语音子片段的特征,得到针对该语音子片段的语音特征向量;根据得到的预设个语音特征向量,生成针对该语音片段的二维特征矩阵。在一些实施例中,上述生成单元包括:信息生成单元,被配置成对于上述至少一个语音片段中的语音片段,生成该语音片段的音素序列,以及对该音素序列进行编码,得到音素信息;信息序列生成单元,被配置成将由至少一条音素信息组成的音素信息序列输入预先建立的口型关键点预测模型,得到由至少一条口型关键点信息组成的口型关键点信息序列,其中,上述口型关键点预测模型用于表征音素信息序列与口型关键点信息序列的对应关系;参数序列生成单元,被配置成基于上述口型关键点信息序列,生成口型控制参数序列。在一些实施例中,上述参数序列生成单元进一步被配置成:对于上述口型关键点信息序列中的口型关键点信息,基于预先建立的样本口型关键点信息与样本口型控制参数的对应关系,得到该口型关键点信息对应的口型控制参数;基于得到至少一个口型控制参数,生成口型控制参数序列。在一些实施例中,上述口型关键点预测模型为循环神经网络,上述循环神经网络的循环体为长短期记忆网络。第三方面,本公开实施例提供了一种终端设备,该终端设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开实施例提供的用于控制三维虚拟人像口型变化的方法和装置,首先在获取的待播放语音中以预设的步长滑动预设的时间窗口得到至少一个语音片段,而后基于得到的至少一个语音片段生成针对待播放语音的口型控制参数序列,最后在播放待播放语音时,基于口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化,实现了基于待播放语音自动生成口型控制参数序列,从而高效率的渲染出语音和口型同步变化的三维虚拟人像。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于控制三维虚拟人像口型变化的方法的一个实施例的流程图;图3a和图3b分别示出了jaw_open=0和jaw_open=1对应的三维虚拟人像的下巴的张合程度;图4是本公开的从待播放语音到口型关键点信息序列的一个示意图;图5是根据本公开的用于控制三维虚拟人像口型变化的本文档来自技高网...

【技术保护点】
1.一种用于控制三维虚拟人像口型变化的方法,包括:获取待播放语音;在所述待播放语音中以预设的步长滑动预设的时间窗口,得到至少一个语音片段;基于所述至少一个语音片段,生成针对所述待播放语音的口型控制参数序列;响应于播放所述待播放语音,基于所述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。

【技术特征摘要】
1.一种用于控制三维虚拟人像口型变化的方法,包括:获取待播放语音;在所述待播放语音中以预设的步长滑动预设的时间窗口,得到至少一个语音片段;基于所述至少一个语音片段,生成针对所述待播放语音的口型控制参数序列;响应于播放所述待播放语音,基于所述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。2.根据权利要求1所述的方法,其中,所述基于所述至少一个语音片段,生成针对所述待播放语音的口型控制参数序列,包括:基于所述至少一个语音片段,生成二维特征矩阵序列;将所述二维特征矩阵序列输入预先建立的卷积神经网络,得到口型控制参数序列,其中,所述卷积神经网络用于表征二维特征矩阵与口型控制参数的对应关系。3.根据权利要求2所述的方法,其中,所述基于所述至少一个语音片段,生成二维特征矩阵序列,包括:对于所述至少一个语言片段中的语音片段,生成针对该语音片段的二维特征矩阵;根据所述至少一个语音片段在所述待播放语音中的顺序,将生成的至少一个二维特征矩阵拼接成二维特征矩阵序列。4.根据权利要求3所述的方法,其中,所述对于所述至少一个语言片段中的语音片段,生成针对该语音片段的二维特征矩阵,包括:将该语音片段划分为预设个语音子片段,其中,相邻的两个语音子片段之间部分重合;对于所述预设个语音子片段中的语音子片段,提取该语音子片段的特征,得到针对该语音子片段的语音特征向量;根据得到的预设个语音特征向量,生成针对该语音片段的二维特征矩阵。5.根据权利要求1所述的方法,其中,所述基于所述至少一个语音片段,生成针对所述待播放语音的口型控制参数序列,包括:对于所述至少一个语音片段中的语音片段,生成该语音片段的音素序列,以及对该音素序列进行编码,得到音素信息;将由至少一条音素信息组成的音素信息序列输入预先建立的口型关键点预测模型,得到由至少一条口型关键点信息组成的口型关键点信息序列,其中,所述口型关键点预测模型用于表征音素信息序列与口型关键点信息序列的对应关系;基于所述口型关键点信息序列,生成口型控制参数序列。6.根据权利要求5所述的方法,其中,所述基于所述口型关键点信息序列,生成口型控制参数序列,包括:对于所述口型关键点信息序列中的口型关键点信息,基于预先建立的样本口型关键点信息与样本口型控制参数的对应关系,得到该口型关键点信息对应的口型控制参数;基于得到至少一个口型控制参数,生成口型控制参数序列。7.根据权利要求5所述的方法,其中,所述口型关键点预测模型为循环神经网络,所述循环神经网络的循环体为长短期记忆网络。8.一种用于控制三维虚拟人像口型变化的装置,包括:获取单元,被配置成获取待播放语音;滑动单元,被配置成在所述待播放语音中以预设的步长滑动预设的时间窗口,得到至少一...

【专利技术属性】
技术研发人员:陈超王建祥
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1