【技术实现步骤摘要】
本申请涉及ai,具体而言,涉及一种嘴型模型的训练方法、装置及嘴型的生成方法及装置。
技术介绍
1、数字人应用中,语音信息驱动视频生成是实现更逼真、交互性更强的关键。传统方法通常使用原始图片和图片上半部分,通过这些信息来生成与语音内容相匹配的面部表情和嘴部动作。但随着技术发展,新方法如基于深度学习和生成对抗网络的技术崭露头角。
2、最新的方法利用深度学习和gans,训练神经网络学会从语音到面部表情的映射,使生成的视频更自然。使用更大规模的数据集和先进的神经网络架构,如transformer模型,进一步提高了图像质量和语音同步性。同时,引入三维技术也是当前研究的热点,通过结合三维图形和深度学习,使得数字人的表现更为生动。
3、但是,现有技术中,数字人生成嘴型过程中还是存在嘴部以及牙齿变形、不清晰问题。
4、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本专利技术实施例提供了一种嘴型模型的训练方法、装置及嘴型的生成方法及装置,以至少解决数字人
...【技术保护点】
1.一种嘴型模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述第二面部图片进行处理,包括:
3.根据权利要求2所述的方法,其特征在于,利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码,得到第三面部图片,包括:
4.根据权利要求2所述的方法,其特征在于,提取出和所述第二面部图片对应的音频向量,包括:
5.根据权利要求4所述的方法,其特征在于,对所述第一面部图片和处理后的所述第二面部图片进行图像编码,并对所述音频向量进行音频编码,包括:
6.一种嘴型的
...【技术特征摘要】
1.一种嘴型模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对所述第二面部图片进行处理,包括:
3.根据权利要求2所述的方法,其特征在于,利用解码器对经图像编码后得到的图像数据以及经音频编码后得到的音频数据进行解码,得到第三面部图片,包括:
4.根据权利要求2所述的方法,其特征在于,提取出和所述第二面部图片对应的音频向量,包括:
5.根据权利要求4所述的方法,其特征在于,对所述第一面部图片和处理后的所述第二面部图片...
【专利技术属性】
技术研发人员:王英,蒋正浩,张鹏起,吴建伟,李建成,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。