一种用于模拟虚拟人物说话的方法及装置制造方法及图纸

技术编号：33114443 阅读：22 留言：0更新日期：2022-04-17 00:07

本发明专利技术公开了一种用于模拟虚拟人物说话的方法及装置，方法包括：步骤1：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型；其中，多个音素分类包括：(AA)、(OH)、(OU)、第一通用分类、第二通用分类；第一通用分类和第二通用分类内包括多个音素；步骤2：输入音频流，提取音频流的音频帧，识别音频帧的音素；步骤3：从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型；步骤4：将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类，整理为5个基本口型，可以通过音素识别，驱动虚拟数字人口型同步。口型同步。口型同步。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于模拟虚拟人物说话的方法及装置

[0001]本专利技术实施例涉及语言识别处理领域，具体涉及一种用于模拟虚拟人物说话的方法及装置。

技术介绍

[0002]虚拟数字人口型当前市场主要有以下三种解决方案：
[0003](1)固定虚拟数字人口型动画：不管虚拟角色说啥，口型都是固定的，做不到语音口型同步。
[0004](2)音量驱动虚拟数字人口型动画：根据虚拟角色说话的音量大小，来控制虚拟角色的口型大小，非常不准确，做不到语音口型同步。
[0005](3)真人图片序列帧动画：该解决方案局限性大，需要拍摄大量的真人素材。

技术实现思路

[0006]为此，本专利技术实施例提供一种用于模拟虚拟人物说话的方法及装置，以解决现有技术中的音量识别和固定口型只适用于卡通角色，无法实现语音口型同步的问题。
[0007]为了实现上述目的，本专利技术的实施方式提供如下技术方案：
[0008]在本专利技术的实施方式的一个方面中，提供了用于模拟虚拟人物说话的方法，所述方法包括：
[0009...

【技术保护点】

【技术特征摘要】
1.一种用于模拟虚拟人物说话的方法，其特征在于，所述方法包括：步骤1：根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；其中，所述多个音素分类包括：(AA)、(OH)、(OU)、第一通用分类、第二通用分类；所述第一通用分类和所述第二通用分类内包括多个音素；步骤2：输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；步骤3：从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；步骤4：将选择的所述基础口型合成所述音频帧的对应口型。2.根据权利要求1所述的方法，其特征在于，所述多个基础口型包括：与音素分类(AA)对应的第一基础口型、与音素分类(OH)对应的第二基础口型、与音素分类(OU)对应的第三基础口型、与所述第一通用分类对应的第一通用口型、与所述第二通用分类对应的第二通用口型；所述第一通用分类包括的音素有：PP、TH、KK、SS、RR、EE、IH；所述第二通用分类包括的音素有：FF、DD、CH、NN。3.根据权利要求2所述的方法，其特征在于，步骤3具体为：同一所述音频帧中的多个音素被分在所述第一通用分类中时，通过排序算法将同一所述音频帧中的多个音素对应的驱动值进行排序；采用驱动值最大的所述音素驱动所述第一通用口型。4.根据权利要求3所述的方法，其特征在于，步骤3具体为：同一所述音频帧中的多个音素被分在所述第二通用分类中时，通过排序算法将同一所述音频帧中的多个音素对应的驱动值进行排序；采用驱动值最大的所述音素驱动所述第二通用口型。5.根据权利要求1所述的方法，其特征在于，在所述音频流中，提取2.5ms至60ms为单位的数据量为一帧音频。6.根据权利要求1所述的...

【专利技术属性】
技术研发人员：余国军，
申请(专利权)人：小哆智能科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人