【技术实现步骤摘要】
本专利技术涉及视频生成,具体涉及一种基于音频驱动二次元图片表情及动作的高效方法。
技术介绍
1、随着互联网的普及和社交媒体的兴起,情感分析的需求逐渐增加,大量的文本和语音数据包含了人们的情感信息。同时人工智能技术的发展为情感分析提供了更好的技术支持和数据处理方法,用户对于情感聊天机器人形象的需求也推动了情感分析的发展。
2、现有的方法存在很多缺陷:
3、1、对人物输入图片有较多的限制,需要正脸居中;
4、2、对于被遮挡的部分,生成图像的质量存在问题,当角色被遮挡的部分旋转并变得可见时,它们常常模糊不清;
5、3、现有的主流方法往往计算速度慢,需要更强大的gpu才能实时运行,并且无法在移动设备上有效使用;
6、4、没有音频驱动情感模型,各种面部表情需要通过手动控制;
7、5、目前仅能实现脸部器官的小角度旋转和躯干的移动。
技术实现思路
1、为了解决上述现有技术中存在的技术问题,本专利技术提供一种基于音频驱动二次元图片表情
...【技术保护点】
1.一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤S1中,使用基于transformer的模型提取来自音频输入的3D面部mesh和头部pose序列,投影到2D面部1andmark中。
3.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤S1.1中,用预训练的wav2vec 2.0来提取音频特征H1:T=(h1,...,hT),并进行对应的情绪识别,获取情感特征C1:T=(c1,...,
...【技术特征摘要】
1.一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤s1中,使用基于transformer的模型提取来自音频输入的3d面部mesh和头部pose序列,投影到2d面部1andmark中。
3.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤s1.1中,用预训练的wav2vec 2.0来提取音频特征h1:t=(h1,...,ht),并进行对应的情绪识别,获取情感特征c1:t=(c1,...,ct),通过编码器将音频特征和情感特征进行编码得到新的音频特征a1:t,具体计算方式如下:
4.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤s1.2中,将提取的音频特征a1:t=(a1,...,at)通过一个34层的resnet,然后接入两个fc层组成的筒单架构将提取的音频特征转换为3d面部网格m1:t=(m1,...,mt),训练的loss为l1loss,具体计算方式如下:
5.根据权利要求1所述的一种基于音频驱动二次元图片表情及动作的高效方法,其特征在于:所述步骤s1.3中,将提取的音频特征a1:t=(a1,...,at)去推理头部姿态的动作p1:t=(p1,...,pt),建立一个独立的34层的resnet,用transformer作为decoder,来解码pose序列,使用transformer,将可以提高生成速度;
<...【专利技术属性】
技术研发人员:卢薇薇,古小帆,
申请(专利权)人:深圳市千集技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。