【技术实现步骤摘要】
深度学习模型的训练方法及控制虚拟形象口型变化的方法
[0001]本申请涉及人工智能
,具体而言,涉及一种深度学习模型的训练方法和装置、以及控制虚拟形象口型变化的方法、装置和系统。
技术介绍
[0002]现有的控制虚拟形象口型变化的方法主要采用基于深度学习的技术,如基于卷积神经网络(Convolutional Neural Network,CNN)的深度学习模型。这些模型通过训练学习口型参数与音频特征之间的关系,并利用生成模型或回归模型将输入的音频信号转换为相应的口型参数,从而可以实现控制虚拟形象口型变化的目的。
[0003]但是,基于CNN网络训练出的深度学习模型控制虚拟形象口型变化会存在一些问题。这种模型只能捕捉局部相关性,而不能捕捉长期的依赖关系。此外,对于时序信息的处理也是有限的,它只能基于当前时刻的输入来进行推理,而不能记住之前的输入历史记录。由此,导致训练出的深度学习模型无法将待处理的音频信号准确地转换为相应的口型参数。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
专利技 ...
【技术保护点】
【技术特征摘要】
1.一种深度学习模型的训练方法,其特征在于,包括:对样本音频数据进行预处理;将预处理后的所述样本音频数据输入到预先构建的深度学习模型中,其中,所述深度学习模型对预处理后的所述样本音频数据进行音频特征提取,比较前一时间步长的音频特征和当前时间步长的音频特征,并基于比较结果确定所述当前时间步长的音频特征对应的口型参数;根据所述口型参数确定所述深度学习模型的损失,并基于所述损失更新所述深度学习模型的网络参数,以训练所述深度学习模型。2.根据权利要求1所述的方法,其特征在于,对样本音频数据进行预处理包括:从所述样本音频数据中截取随机长度的音频数据,并掩蔽所述样本音频数据中除所截取的音频数据以外的音频数据,得到预处理后的所述样本音频数据,其中,所述随机长度在预设的长度范围内。3.根据权利要求1所述的方法,其特征在于,对预处理后的所述样本音频数据进行音频特征提取包括:将预处理后的所述样本音频数据进行短时傅里叶变换,得到频谱图,使用二维卷积层从所述频谱图中提取频域特征;基于残差网络中的残差块,使用跳跃连接将所述频域特征直接添加到所述残差块中,得到具有梯度的所述频域特征;将具有梯度的所述频域特征进行逆傅里叶变化,得到时域特征序列,并将述所时域特征序列作为所提取的音频特征。4.根据权利要求3所述的方法,其特征在于,比较前一时间步长的音频特征和当前时间步长的音频特征,并基于比较结果确定所述当前时间步长的音频特征对应的口型参数,包括:将所述时域特征序列输入到长短期记忆网络中,利用所述长短期记忆网络确定所述时域特征序列中所述前一时间步长的音频特征和所述当前时间步长的音频特征之间的依赖关系;在所述长短期记忆网络的输出层之前加入注意力机制,利用所述注意力机制对所述时域特征序列中每个音频特征赋予不同的注意力权重,并基于所述不同的注意力权重得到注意力输出;基于所述依赖关系和所述注意力输出,来比较所述前一时间步长的音频特征和所述当前时间步长的音频特征。5.根据权利要求4所述的方法,其特征在于,利用所述注意力机制对所述时域特征序列中每个音频特征赋予不同的注意力权重,并基于所述不同的注意力权重得到注意力输出,包括:将注意力查询向量和所述时域特征序列中的每个音频特征映射到同一维度,并将映射到同一维度...
【专利技术属性】
技术研发人员:王新国,王英,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。