生成模型和生成3D动画的方法、装置、设备和存储介质制造方法及图纸

技术编号:28040743 阅读:19 留言:0更新日期:2021-04-09 23:23
本申请公开了生成模型和生成3D动画的方法、装置、设备、存储介质和计算机程序,涉及人工智能技术领域,具体为计算机视觉、增强现实和深度学习技术领域。具体实现方案为:获取预置的针对特定情绪的样本集,并初始化特定情绪的情绪向量;获取预先建立的表情预测模型。执行以下训练步骤:从样本集中选取样本;将所选取的样本中的样本音频特征输入第一卷积层,得到高层特征;将高层特征与情绪向量融合,得到融合特征;将融合特征输入第二卷积层和全连接层,得到预测的表情参数;根据该样本的期望的表情参数和预测的表情参数计算损失值;若损失值小于阈值,则输出训练完成的表情预测模型和情绪向量。该实施方式提供了表达不同情绪的人脸3D动画模型。

【技术实现步骤摘要】
生成模型和生成3D动画的方法、装置、设备和存储介质
本申请涉及人工智能
,具体为计算机视觉、增强现实和深度学习

技术介绍
经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中。现有的基于深度学习的方法,通过单张图像生成整个人脸说话的视频,这种方式已经足以得到很好的与提供的语音匹配的唇形,但是无法产生动的面部表情,无法实现对表情的可控,因而无法很好地满足特定场景下,虚拟人情绪表达的需求。
技术实现思路
本公开提供了一种生成模型和生成3D动画的方法、装置、设备以及存储介质。根据本公开的第一方面,提供了一种生成模型的方法,包括:获取预置的针对特定情绪的样本集,并初始化特定情绪的情绪向量,其中,样本集至少包含一个样本,样本包括样本音频特征、本文档来自技高网...

【技术保护点】
1.一种生成模型的方法,包括:/n获取预置的针对特定情绪的样本集,并初始化所述特定情绪的情绪向量,其中,所述样本集至少包含一个样本,样本包括样本音频特征、期望的表情参数;/n获取预先建立的表情预测模型,其中,所述表情预测模型包括第一卷积层、情绪融合层、第二卷积层、全连接层;/n执行以下训练步骤:从所述样本集中选取样本;将所选取的样本中的样本音频特征输入所述第一卷积层,得到高层特征;将所述高层特征与所述情绪向量融合,得到融合特征;将所述融合特征输入所述第二卷积层和所述全连接层,得到预测的表情参数;根据该样本的期望的表情参数和所述预测的表情参数计算损失值;若损失值小于阈值,则输出训练完成的表情预测...

【技术特征摘要】
1.一种生成模型的方法,包括:
获取预置的针对特定情绪的样本集,并初始化所述特定情绪的情绪向量,其中,所述样本集至少包含一个样本,样本包括样本音频特征、期望的表情参数;
获取预先建立的表情预测模型,其中,所述表情预测模型包括第一卷积层、情绪融合层、第二卷积层、全连接层;
执行以下训练步骤:从所述样本集中选取样本;将所选取的样本中的样本音频特征输入所述第一卷积层,得到高层特征;将所述高层特征与所述情绪向量融合,得到融合特征;将所述融合特征输入所述第二卷积层和所述全连接层,得到预测的表情参数;根据该样本的期望的表情参数和所述预测的表情参数计算损失值;若损失值小于阈值,则输出训练完成的表情预测模型和情绪向量。


2.根据权利要求1所述的方法,其中,所述方法还包括:
若损失值大于等于所述阈值,则调整情绪向量和所述表情预测模型的相关参数使得损失值收敛,并基于调整后的情绪向量和所述表情预测模型,继续执行上述训练步骤。


3.根据权利要求1所述的方法,其中,所述方法还包括:
获取不同情绪的样本集;
根据每种情绪的样本集执行上述训练步骤,得到每种情绪的情绪向量。


4.一种生成3D动画的方法,包括:
从待转换的语音中提取语音特征;
根据业务场景确定所述语音的情绪;
获取根据权利要求1-3中任一项所述的方法训练出的所述情绪对应的情绪向量;
将所述情绪向量和所述语音特征一起输入根据权利要求1-3中任一项所述的方法训练出的表情预测模型,得到表情参数;
将所述表情参数输入渲染引擎生成3D人脸动画。


5.根据权利要求4所述的方法,其中,所述根据业务场景确定所述语音的情绪,包括:
若所述语音为用户原始输入的语音,则将所述语音输入预先训练的情绪识别模型,确定出所述用户的情绪。


6.根据权利要求4所述的方法,其中,所述根据业务场景确定所述语音的情绪,包括:
若所述语音是根据文本转换的,则将所述文本的内容输入预先训练的主题模型,确定出所述文本的主题;
确定与所述主题匹配的情绪。


7.一种生成模型的装置,包括:
样本获取单元,被配置成获取预置的针对特定情绪的样本集,并初始化所述特定情绪的情绪向量,其中,所述样本集至少包含一个样本,样本包括样本音频特征、期望的表情参数;
模型获取单元,被配置成获取预先建立的表情预测模型,其中,所述表情预测模型包括第一卷积层、情绪融合层、第二卷积层、全连接层;
选取单元,被配置成从所述样本集中选取样本;
特征提取单元,被配置成将所选取的样本中的样本...

【专利技术属性】
技术研发人员:陈超赵亚飞郭紫垣张世昌
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1