用于控制三维虚拟人像口型变化的方法和装置制造方法及图纸

技术编号：22221715 阅读：26 留言：0更新日期：2019-09-30 02:56

本公开实施例公开了用于控制三维虚拟人像口型变化的方法和装置，涉及云计算领域。该方法的一具体实施方式包括：获取待播放语音；在上述待播放语音中以预设的步长滑动预设的时间窗口，得到至少一个语音片段；基于上述至少一个语音片段，生成针对上述待播放语音的口型控制参数序列；响应于播放上述待播放语音，基于上述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。该实施方式实现了基于待播放语音自动生成口型控制参数序列，从而高效率的渲染出语音和口型同步变化的三维虚拟人像。

全部详细技术资料下载

【技术实现步骤摘要】
用于控制三维虚拟人像口型变化的方法和装置
本公开实施例涉及计算机
，具体涉及用于控制三维虚拟人像口型变化的方法和装置。
技术介绍
三维虚拟人像语音口型同步一直是研究的热点，并有着广泛的应用。常见的应用领域有影视动画、游戏娱乐等等。传统的三维虚拟人像语音口型同步技术，通常需要专业的技术人员根据给定的语音片段，手动设置三维虚拟人像的关键帧，并为这些关键帧中的三维虚拟人像调整口型。而关键帧之间的过渡帧中的三维虚拟人像的口型，则由动画引擎自动生成。举例来说，可以通过UE4(UnrealEngine4，虚幻4引擎)、Maya、Unity3D等动画引擎自动生成。这种方式非常依赖于技术人员的专业技能，逐帧的手动作业消耗大量的人力，且这种方式无法做到实时性。
技术实现思路
本公开实施例提出了用于控制三维虚拟人像口型变化的方法和装置。第一方面，本公开实施例提供了一种用于控制三维虚拟人像口型变化的方法，该方法包括：获取待播放语音；在上述待播放语音中以预设的步长滑动预设的上述时间窗口，得到至少一个语音片段；基于上述至少一个语音片段，生成针对上述待播放语音的口型控制参数序列；响应于播放上述待播放语音，基于上述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。在一些实施例中，上述基于上述至少一个语音片段，生成针对上述待播放语音的口型控制参数序列，包括：基于上述至少一个语音片段，生成二维特征矩阵序列；将上述二维特征矩阵序列输入预先建立的卷积神经网络，得到口型控制参数序列，其中，上述卷积神经网络用于表征二维特征矩阵与口型控制参数的对应关系。在一些实施例中，上述基于上述至少一个...

【技术保护点】
1.一种用于控制三维虚拟人像口型变化的方法，包括：获取待播放语音；在所述待播放语音中以预设的步长滑动预设的时间窗口，得到至少一个语音片段；基于所述至少一个语音片段，生成针对所述待播放语音的口型控制参数序列；响应于播放所述待播放语音，基于所述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。

【技术特征摘要】
1.一种用于控制三维虚拟人像口型变化的方法，包括：获取待播放语音；在所述待播放语音中以预设的步长滑动预设的时间窗口，得到至少一个语音片段；基于所述至少一个语音片段，生成针对所述待播放语音的口型控制参数序列；响应于播放所述待播放语音，基于所述口型控制参数序列控制预先设定的三维虚拟人像的口型发生变化。2.根据权利要求1所述的方法，其中，所述基于所述至少一个语音片段，生成针对所述待播放语音的口型控制参数序列，包括：基于所述至少一个语音片段，生成二维特征矩阵序列；将所述二维特征矩阵序列输入预先建立的卷积神经网络，得到口型控制参数序列，其中，所述卷积神经网络用于表征二维特征矩阵与口型控制参数的对应关系。3.根据权利要求2所述的方法，其中，所述基于所述至少一个语音片段，生成二维特征矩阵序列，包括：对于所述至少一个语言片段中的语音片段，生成针对该语音片段的二维特征矩阵；根据所述至少一个语音片段在所述待播放语音中的顺序，将生成的至少一个二维特征矩阵拼接成二维特征矩阵序列。4.根据权利要求3所述的方法，其中，所述对于所述至少一个语言片段中的语音片段，生成针对该语音片段的二维特征矩阵，包括：将该语音片段划分为预设个语音子片段，其中，相邻的两个语音子片段之间部分重合；对于所述预设个语音子片段中的语音子片段，提取该语音子片段的特征，得到针对该语音子片段的语音特征向量；根据得到的预设个语音特征向量，生成针对该语音片段的二维特征矩阵。5.根据权利要求1所述的方法，其中，所述基于所述至少一个语音片段，生成针对所述待播放语音的口型控制参数序列，包括：对于所述至少一个语音片段中的语音片段，生成该语音片段的音素序列，以及对该音素序列进行编码，得到音素信息；将由至少一条音素信息组成的音素信息序列输入预先建立的口型关键点预测模型，得到由至少一条口型关键点信息组成的口型关键点信息序列，其中，所述口型关键点预测模型用于表征音素信息序列与口型关键点信息序列的对应关系；基于所述口型关键点信息序列，生成口型控制参数序列。6.根据权利要求5所述的方法，其中，所述基于所述口型关键点信息序列，生成口型控制参数序列，包括：对于所述口型关键点信息序列中的口型关键点信息，基于预先建立的样本口型关键点信息与样本口型控制参数的对应关系，得到该口型关键点信息对应的口型控制参数；基于得到至少一个口型控制参数，生成口型控制参数序列。7.根据权利要求5所述的方法，其中，所述口型关键点预测模型为循环神经网络，所述循环神经网络的循环体为长短期记忆网络。8.一种用于控制三维虚拟人像口型变化的装置，包括：获取单元，被配置成获取待播放语音；滑动单元，被配置成在所述待播放语音中以预设的步长滑动预设的时间窗口，得到至少一...

【专利技术属性】
技术研发人员：陈超，王建祥，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人