一种声音驱动虚拟形象口型方法、装置及介质制造方法及图纸

技术编号：33716900 阅读：62 留言：0更新日期：2022-06-06 09:02

本申请公开了一种声音驱动虚拟形象口型方法、装置及介质，涉及人工智能领域。通过获取由音频采集设备采集的目标语音，获取其中的声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，得到与目标语音时间同步的目标口型。上述方案通过采集语音并识别音频中每个词的发音及其对应的时间段，结合声音波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，使得虚拟人物的口型和声音同步，同步效率高且成本低。同步效率高且成本低。同步效率高且成本低。

全部详细技术资料下载

【技术实现步骤摘要】
一种声音驱动虚拟形象口型方法、装置及介质

[0001]本申请涉及人工智能领域，特别是涉及一种声音驱动虚拟形象口型方法、装置及介质。

技术介绍

[0002]目前人工智能技术和增强现实（Augmented Reality，AR）智能技术正在飞速发展，互联网用户的内容摄取需求越来丰富，针对动画，虚拟数字形象，AR等内容的需求越加强烈，在动画的制作过程中，面部表情的控制通常由动捕演员表演后导入虚拟形象，然后由配音演员配音后再对虚拟形象的口型进行人为的调整。此方法对于配音演员的要求极高，要求其对动画片段及其的熟悉已经超高的反应能力。
[0003]但是，这种方法难以保证配音后的虚拟形象的声音和口型能够精准的同步。所以需要人为的对口型进行再调整。这整个过程比较繁杂，制作成本高，并且需要非常专业的技术人员才能完成。
[0004]鉴于上述问题，设计一种声音驱动虚拟形象口型方法，使声音和口型同步效率高且成本低，是该领域技术人员亟待解决的问题。

技术实现思路

[0005]本申请的目的是提供一种声音驱动虚拟形象口型方...

【技术保护点】

【技术特征摘要】
1.一种声音驱动虚拟形象口型方法，其特征在于，包括：获取通过音频采集设备采集的目标语音；获取所述目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据所述持续时间和所述幅度值获取基本发音口型模型在预设频率下的时序数据；其中，所述基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型。2.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，所述获取所述目标语音中声韵母或音标及其对应的持续时间包括：输入所述目标语音至时间获取模型中；其中，所述时间获取模型为通过神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的模型；获取所述时间获取模型输出的所述目标语音中声韵母或音标及其对应的所述持续时间。3.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，所述基本发音口型模型的生成过程包括如下步骤：获取不同的声韵母或不同的音标的发音口型，并合并相似的声韵母或音标的发音口型；获取与所述发音口型对应的语音波形包络的幅度值；根据所述发音口型与所述对应的语音波形包络的幅度值生成得到所述基本发音口型模型。4.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，在所述将所述时序数据输入至所述基本发音口型模型之前，还包括：对所述时序数据进行滤波处理和消抖处理。5.根据权利要求1至4任意一项所述的声音驱动虚拟形象口型方法，其特征在于，在所述得到与...

【专利技术属性】
技术研发人员：唐浩，
申请(专利权)人：成都市谛视无限科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人