交互对象驱动和音素处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：29839374 阅读：12 留言：0更新日期：2021-08-27 14:29

公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质，所述交互对象驱动方法包括：获取交互对象的声音驱动数据的声学特征；利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；根据所述姿态参数值控制所述交互对象的姿态。

全部详细技术资料下载

【技术实现步骤摘要】
交互对象驱动和音素处理方法、装置、设备以及存储介质
本公开涉及计算机
，具体涉及一种交互对象驱动和音素处理方法、装置、设备以及存储介质。
技术介绍
数字人是利用深度学习的方法，将所发出的声音与所呈现的口型、表情、动作等相匹配。随着数字人在众多领域的广泛应用，在许多场景下需要数字人能够支持多语种。目前，通常利用语音识别模型所提取的声音特征，或者利用音素时间戳得到的声音特征来驱动数字人，然而这些特征在不同的语种下是有区别的，且深度学习需要针对不同语种的数据集，而当前开源数据集存在质量低、标注不完整、数据不均衡等问题。如何实现数字人对多语种的支持是目前需要积极研究的问题。
技术实现思路
本公开实施例提供一种交互对象驱动和音素处理方案。根据本公开的一方面，提供一种交互对象的驱动方法，所述方法包括：获取交互对象的声音驱动数据的声学特征；利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；根据所述姿态参数值控制所述交互对象的姿态。本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练，可以提高对所述特征提取网络训练的效率和质量，并利用该网络提取所述声音驱动数据的音素后验特征，作为声音特征驱动所述交互对象，由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征，使得交互对象的姿态在不同语种下都与真实发...

【技术保护点】
1.一种交互对象的驱动方法，其特征在于，所述方法包括：/n获取交互对象的声音驱动数据的声学特征；/n利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；/n根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；/n根据所述姿态参数值控制所述交互对象的姿态。/n

【技术特征摘要】
1.一种交互对象的驱动方法，其特征在于，所述方法包括：
获取交互对象的声音驱动数据的声学特征；
利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率；所述声音特征提取网络是根据包含多语种的音素表训练得到的；
根据所述各个语音帧的音素后验概率，得到所述交互对象的姿态参数值；
根据所述姿态参数值控制所述交互对象的姿态。

2.根据权利要求1所述的方法，其特征在于，所述获取交互对象的声音驱动数据的声学特征，包括：
获取所述交互对象的声音驱动数据对应的语音帧序列；
根据所述语音帧序列中各个语音帧的声学特征向量，得到所述声音驱动数据的声学特征。

3.根据权利要求1或2所述的方法，其特征在于，所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络，所述利用声音特征提取网络对所述声学特征进行特征提取，得到所述声音驱动数据中各个语音帧的音素后验概率，包括：
将所述声音特征输入至所述第一全连接网络，得到所述第一全连接网络输出的第一声学特征序列；
利用所述编码子网络，对所述第一声学特征序列进行特征编码处理；
将编码结果输入至所述第二全连接网络，得到所述声音驱动数据中各个语音帧的音素后验概率。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据所述各个音素的音素后验概率，得到所述交互对象的姿态参数值，包括：
将所述各个语音帧的音素后验概率输入至时序网络，输出关联特征信息；
将所述关联特征信息输入至第三全连接网络，得到关联特征序列；
对所述关联特征序列进行激活处理，得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。

5.根据权利要求1至4任一所述的方法，其特征在于，所述交互对象的姿态参数包括面部姿态参数，所述根据所述姿态参数值控制所述交互对象的姿态，包括：
根据与所述各个语音帧的音素后验概率匹配的面部姿态参数，驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。

6.一种音素处理方法，其特征在于，所述方法包括：
根据多个目标语种中的音素，得到包含多语种的音素表；
基于所述包含多语种的音素表，训练得到声音特征提取网络，所述声音特征提取网络用于提取待识别语音帧的音素后验概率。

7.根据权利要求6所述的方法，其特征在于，所述根据多个目标语种中的音素，得到包含多语种的音素表，包括：
将所述多个目标语种中的音素进行拼接；
将拼接结果中发音相似度超过第一设定阈值的音素进行合并，得到包含多语种的音素表。

8.根据权利要求6所述的方法，其特征在于，所述根据多个目标语种中的音素，得到包含多语种的音素表，包括：
将多个目标...

【专利技术属性】
技术研发人员：吴文岩，吴潜溢，高娜，钱晨，
申请(专利权)人：北京市商汤科技开发有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人