【技术实现步骤摘要】
本申请涉及ai,具体而言,涉及一种基于视频来确定数字人的嘴型的方法及装置。
技术介绍
1、数字人应用中,语音信息驱动视频生成是实现更逼真、交互性更强的关键。传统方法通常使用原始图片和图片上半部分,通过这些信息来生成与语音内容相匹配的面部表情和嘴部动作。但随着技术发展,新方法如基于深度学习和生成对抗网络的技术崭露头角。
2、最新的方法利用深度学习和gans,训练神经网络学会从语音到面部表情的映射,使生成的视频更自然。使用更大规模的数据集和先进的神经网络架构,如transformer模型,进一步提高了图像质量和语音同步性。同时,引入三维技术也是当前研究的热点,通过结合三维图形和深度学习,使得数字人的表现更为生动。
3、但是,现有技术中,数字人生成嘴型过程中还是存在嘴部以及牙齿变形、不清晰问题。
4、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本专利技术实施例提供了一种基于视频来确定数字人的嘴型的方法及装置,以至少解决数字人生成嘴型过程中存
...【技术保护点】
1.一种基于视频来确定数字人的嘴型的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,从所述语音序列中提取多个语音向量,包括:
3.根据权利要求1所述的方法,其特征在于,基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列,包括:
4.根据权利要求3所述的方法,其特征在于,在根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系,确定与所述多个语音向量相对应的初始嘴型序列之前,
...【技术特征摘要】
1.一种基于视频来确定数字人的嘴型的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,从所述语音序列中提取多个语音向量,包括:
3.根据权利要求1所述的方法,其特征在于,基于所述多个语音向量,根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系以及所述目标人物的不同状态下的多张不同类型的嘴部信息,确定与所述多个语音向量相对应的嘴型序列,包括:
4.根据权利要求3所述的方法,其特征在于,在根据嘴型生成模型中目标人物的嘴型和目标人物的音频向量之间的关联关系,确定与所述多个语音向量相对应的初始嘴型序列之前,所述方法还包括:
5.根据权利要求3所...
【专利技术属性】
技术研发人员:王英,蒋正浩,张鹏起,吴建伟,李建成,
申请(专利权)人:世优北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。