【技术实现步骤摘要】
本公开涉及图像处理,具体涉及一种口型驱动方法、装置、设备及存储介质。
技术介绍
1、口型驱动可以利用音频数据作为输入,借助于驱动算法,将音频数据转换为驱动信号,从而通过驱动信号引导口型的变换。
2、在相关技术中,可以采用blendshape或者viseme方案,实现口型驱动。其中,blendshape方案可以预先定义一系列的规则口型,然后通过对输入的音频数据进行处理,从而得到规则口型的权重系数。利用权重系数对规则口型进行加权求和,便可以得到与音频数据相匹配的实际口型。在viseme方案中,可以将音频数据处理为对应的音素,不同的音素可以对应不同的口型,通过音素来驱动口型便可以使得驱动得到的口型与输入的音频数据相匹配。
3、在现有的一些场景下,口型驱动的过程需要在一些运算能力比较普通的设备上进行,这就限制了口型驱动过程中能够处理的数据量。此外,口型驱动通常对于延时也会有一定的要求。鉴于此,目前需要一种高效的,并且能够满足一定实时性条件的口型驱动方法。
技术实现思路
1、
...【技术保护点】
1.一种口型驱动方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,提取所述音频数据的音频特征包括:
3.根据权利要求2所述的方法,其特征在于,从所述采样数据中选取窗口数据包括:
4.根据权利要求3所述的方法,其特征在于,所述第一数量的取值范围为所述第二数量的1.5倍至2.5倍。
5.根据权利要求1所述的方法,其特征在于,所述音频特征通过特征提取模型提取,所述特征提取模型按照以下方式进行训练:
6.根据权利要求5所述的方法,其特征在于,通过所述特征提取模型提取所述音频训练数据的训练特征
...
【技术特征摘要】
1.一种口型驱动方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,提取所述音频数据的音频特征包括:
3.根据权利要求2所述的方法,其特征在于,从所述采样数据中选取窗口数据包括:
4.根据权利要求3所述的方法,其特征在于,所述第一数量的取值范围为所述第二数量的1.5倍至2.5倍。
5.根据权利要求1所述的方法,其特征在于,所述音频特征通过特征提取模型提取,所述特征提取模型按照以下方式进行训练:
6.根据权利要求5所述的方法,其特征在于,通过所述特征提取模型提取所述音频训练数据的训练特征包括:
7.根据权利要求5所述的方法,其特征在于,所述第一特征处理分支中包括第一全连接层;生成所述训练特征对应的口型预测特征包括:
8.根据权利要求5所述的方法,...
【专利技术属性】
技术研发人员:孙敬娜,董欣,张惜今,杜康,
申请(专利权)人:北京字跳网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。