【技术实现步骤摘要】
本申请涉及虚拟数字人,尤其涉及一种数字人脸生成方法、存储介质及电子设备。
技术介绍
1、虚拟数字形象技术在虚拟现实、计算机游戏、人机交互等领域具有广泛的应用前景,而虚拟数字人脸的生成技术是其中的关键环节之一。目前基于音频驱动数字人的方案中,主要涉及端到端的将语音信息映射到说话人脸图像的技术解决方案。
2、在目前相关技术中,通过提取音频特征将音频特征映射为视觉特征或与视觉特征进行融合然后通过图像合成网络合成说话人脸图像,同时为了确保音视频的唇形同步效果,需要额外训练一种依赖于大量数据的唇形同步监督网络,受限于同步网络的固定窗口,同步网络往往无法保证有效的唇形同步,且极易出现过拟合现象,此外由于同步网络的固定时间窗口使得合成网络无法利用视觉时间上下文信息,只能建立音频到视觉的多帧合成一帧的架构,该架构无法保证唇形同步效果,也制约了网络合成人脸的分辨率。
3、针对上述问题,目前业界暂未提出较佳的解决方案。
技术实现思路
1、本申请提供一种数字人脸生成方法、存储介质及电子设
...【技术保护点】
1.一种数字人脸生成方法,包括:
2.根据权利要求1所述的方法,其中,所述数字人脸生成模型采用Unet架构,所述数字人脸生成模型用于通过执行包括以下的操作来生成相应的合成数字人脸图像:
3.根据权利要求1所述的方法,其中,所述提取音频数据所对应的码本向量,包括:
4.根据权利要求3所述的方法,其中,所述编码所述语音信号特征,以确定相应的码本向量,包括:
5.一种数字人脸模型训练方法,包括:
6.根据权利要求5所述的方法,其中,所述编码所述唇部区域图像样本,以确定相应的参考唇部码本,包括:
7.根据
...【技术特征摘要】
1.一种数字人脸生成方法,包括:
2.根据权利要求1所述的方法,其中,所述数字人脸生成模型采用unet架构,所述数字人脸生成模型用于通过执行包括以下的操作来生成相应的合成数字人脸图像:
3.根据权利要求1所述的方法,其中,所述提取音频数据所对应的码本向量,包括:
4.根据权利要求3所述的方法,其中,所述编码所述语音信号特征,以确定相应的码本向量,包括:
5.一种数字人脸模型训练方法,包括:
6.根据权利要求5所述的方法,其中,所述编码所述唇部区域图像样本,以确定相应的参考唇部码本,包括:
7.根据权利要求5所述的方法,其中,所述获取人脸图像样本和相应的语音...
【专利技术属性】
技术研发人员:陈飞龙,樊帅,俞凯,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。