交互对象驱动和音素处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:29839374 阅读:12 留言:0更新日期:2021-08-27 14:29
公开了一种交互对象驱动和音素处理方法、装置、设备以及存储介质,所述交互对象驱动方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。

【技术实现步骤摘要】
交互对象驱动和音素处理方法、装置、设备以及存储介质
本公开涉及计算机
,具体涉及一种交互对象驱动和音素处理方法、装置、设备以及存储介质。
技术介绍
数字人是利用深度学习的方法,将所发出的声音与所呈现的口型、表情、动作等相匹配。随着数字人在众多领域的广泛应用,在许多场景下需要数字人能够支持多语种。目前,通常利用语音识别模型所提取的声音特征,或者利用音素时间戳得到的声音特征来驱动数字人,然而这些特征在不同的语种下是有区别的,且深度学习需要针对不同语种的数据集,而当前开源数据集存在质量低、标注不完整、数据不均衡等问题。如何实现数字人对多语种的支持是目前需要积极研究的问题。
技术实现思路
本公开实施例提供一种交互对象驱动和音素处理方案。根据本公开的一方面,提供一种交互对象的驱动方法,所述方法包括:获取交互对象的声音驱动数据的声学特征;利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;根据所述姿态参数值控制所述交互对象的姿态。本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练,可以提高对所述特征提取网络训练的效率和质量,并利用该网络提取所述声音驱动数据的音素后验特征,作为声音特征驱动所述交互对象,由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征,使得交互对象的姿态在不同语种下都与真实发音相贴合。结合本公开提供的任一实施方式,所述获取交互对象的声音驱动数据的声学特征,包括:获取所述交互对象的声音驱动数据对应的语音帧序列;根据所述语音帧序列中各个语音帧的声学特征向量,得到所述声音驱动数据的声学特征。结合本公开提供的任一实施方式,所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络,所述利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率,包括:将所述声学特征输入至所述第一全连接网络,得到所述第一全连接网络输出的第一声学特征序列;利用所述编码子网络,对所述第一声学特征序列进行特征编码处理;将编码结果输入至所述第二全连接网络,得到所述声音驱动数据中各个语音帧的音素后验概率。在本公开实施例中,通过将所述声音特征转换为序列,通过适用于提取序列特征的编码网络进行特征提取,并通过全连接网络分类处理,可以准确地预测出声音特征数据中各个语音帧的音素后验概率。结合本公开提供的任一实施方式,所述根据所述各个音素的音素后验概率,得到所述交互对象的姿态参数值,包括:将所述各个语音帧的音素后验概率输入至时序网络,输出关联特征信息;将所述关联特征信息输入至第三全连接网络,得到关联特征序列;对所述关联特征序列进行激活处理,得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。通过时序网络和全连接网络来预测所述声音驱动数据中各个语音帧的音素后验概率对应的姿态参数值,以将具有关联性的历史音素后验概率和当前音素后验概率进行融合,从而使得历史姿态参数值对当前姿态参数值的变化产生影响,使得交互人物的姿态参数值的变化更加平缓、自然。结合本公开提供的任一实施方式,所述交互对象的控制参数包括面部姿态控制参数,所述根据所述姿态参数值控制所述交互对象的姿态,包括:根据与所述各个语音帧的音素后验概率匹配的面部姿态控制参数,驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。在根据所述声音驱动数据输出声音的同时,根据与所述声音驱动数据对应的面部姿态控制参数来驱动所述交互对象做出面部表情,则可以实现交互对象在输出声音的同时,同步做出发出该声音的嘴型和表情,从而使目标对象产生该交互对象正在说话的感觉,提高了目标对象的交互体验。根据本公开的一方面,提出一种音素处理方法,所述方法包括:根据多个目标语种中的音素,得到包含多语种的音素表;基于所述包含多语种的音素表,训练得到声音特征提取网络,所述声音特征提取网络用于提取待识别语音帧的音素后验概率。本公开实施例利用包含多语种的音素表对声音特征提取网络进行训练,可以提高对所述特征提取网络训练的效率和质量,并利用该网络提取所述声音驱动数据的音素后验特征,作为声音特征驱动所述交互对象,由于所述音素后验概率是与说话者无关、能够支持多语种的声音特征,使得交互对象的姿态在不同语种下都与真实发音相贴合。在本公开实施例中,利用包含多语种的音素表结合本公开提供的任一实施方式,所述根据多个目标语种中的音素,得到包含多语种的音素表包括:获取多个目标语种中的音素进行拼接;将拼接结果中发音相似度超过第一设定阈值的音素进行合并,得到所述包含多语种的音素表。本公开实施例提出了一种通过拼接方式构建多语种音素表的方法,可以方便、快速地得到包含多个目标语种的音素表。结合本公开提供的任一实施方式,所述方法还包括:将多个目标语种中的音素分别映射为发音相似度满足预设相似度条件的国际音标;将映射结果中具有相同发音的国际音标进行合并,得到所述包含多语种的音素表。结合本公开提供的任一实施方式,响应于所述多个目标语种中存在与各个国际音标的发音相似度小于或等于第二设定阈值的第一音素,将所述第一音素添加至所述包含多语种的音素表中。本公开实施例提出了一种通过将多个目标语种映射为国际音标,从而得到包含多语种的音素表的方法,该方法适用于多种目标语种,具有普适性。结合本公开提供的任一实施方式,所述方法还包括:获取多语种的语音样本,所述语音样本的语种类型与所述多语种音素表包含的语种类型相同;对所述语音样本进行音素对齐操作,得到所述语音样本所包含的音素;利用所述多语种的音素表中的音素对所述语音样本中的音素进行标注。在本公开实施例中,利用包含多语种的音素表,可以直接对多语种的语音样本进行标注,可以方便、高效地构建高质量、标注完整、数据均衡的语料库,以用于对声音特征提取网络进行训练。结合本公开提供的任一实施方式,所述方法还包括:将标注后的语音样本的声学特征输入至所述声音特征提取网络,得到所述语音样本中各个语音帧的音素后验概率;根据所述语音帧的最大音素后验概率指示的音素与所标注的真实值之间的差异,调整所述声音特征提取网络的参数值。根据本公开的一方面,提供一种交互对象的驱动装置,所述装置包括:第一获取单元,用于获取交互对象的声音驱动数据的声学特征;第二获取单元,用于利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;第三获取单元,用于根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;控制单元,用于根据所述姿态参数值控制所述交互对象的姿态。结合本公开提供的任一实施方式,所述第一获取单元具体用于:获取所述交互对象的声音驱动数据对应的语音帧序列;根据所述语音帧序列中各个语音帧本文档来自技高网...

【技术保护点】
1.一种交互对象的驱动方法,其特征在于,所述方法包括:/n获取交互对象的声音驱动数据的声学特征;/n利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;/n根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;/n根据所述姿态参数值控制所述交互对象的姿态。/n

【技术特征摘要】
1.一种交互对象的驱动方法,其特征在于,所述方法包括:
获取交互对象的声音驱动数据的声学特征;
利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率;所述声音特征提取网络是根据包含多语种的音素表训练得到的;
根据所述各个语音帧的音素后验概率,得到所述交互对象的姿态参数值;
根据所述姿态参数值控制所述交互对象的姿态。


2.根据权利要求1所述的方法,其特征在于,所述获取交互对象的声音驱动数据的声学特征,包括:
获取所述交互对象的声音驱动数据对应的语音帧序列;
根据所述语音帧序列中各个语音帧的声学特征向量,得到所述声音驱动数据的声学特征。


3.根据权利要求1或2所述的方法,其特征在于,所述声音特征提取网络包括第一全连接网络、编码子网络、第二全连接网络,所述利用声音特征提取网络对所述声学特征进行特征提取,得到所述声音驱动数据中各个语音帧的音素后验概率,包括:
将所述声音特征输入至所述第一全连接网络,得到所述第一全连接网络输出的第一声学特征序列;
利用所述编码子网络,对所述第一声学特征序列进行特征编码处理;
将编码结果输入至所述第二全连接网络,得到所述声音驱动数据中各个语音帧的音素后验概率。


4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述各个音素的音素后验概率,得到所述交互对象的姿态参数值,包括:
将所述各个语音帧的音素后验概率输入至时序网络,输出关联特征信息;
将所述关联特征信息输入至第三全连接网络,得到关联特征序列;
对所述关联特征序列进行激活处理,得到所述各个语音帧的音素后验概率匹配的所述交互对象的姿态参数值。


5.根据权利要求1至4任一所述的方法,其特征在于,所述交互对象的姿态参数包括面部姿态参数,所述根据所述姿态参数值控制所述交互对象的姿态,包括:
根据与所述各个语音帧的音素后验概率匹配的面部姿态参数,驱动所述交互对象实现与所述声音驱动数据中的各个语音帧匹配的面部姿态。


6.一种音素处理方法,其特征在于,所述方法包括:
根据多个目标语种中的音素,得到包含多语种的音素表;
基于所述包含多语种的音素表,训练得到声音特征提取网络,所述声音特征提取网络用于提取待识别语音帧的音素后验概率。


7.根据权利要求6所述的方法,其特征在于,所述根据多个目标语种中的音素,得到包含多语种的音素表,包括:
将所述多个目标语种中的音素进行拼接;
将拼接结果中发音相似度超过第一设定阈值的音素进行合并,得到包含多语种的音素表。


8.根据权利要求6所述的方法,其特征在于,所述根据多个目标语种中的音素,得到包含多语种的音素表,包括:
将多个目标...

【专利技术属性】
技术研发人员:吴文岩吴潜溢高娜钱晨
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1