System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于音频驱动的图像处理方法、设备和存储介质技术_技高网

基于音频驱动的图像处理方法、设备和存储介质技术

技术编号:41244492 阅读:2 留言:0更新日期:2024-05-09 23:55
本发明专利技术涉及图像处理领域,公开了一种基于音频驱动的图像处理方法、设备和存储介质,该方法包括:获取初始图像序列以及初始音频;其中,初始图像序列中的嘴部区域的变化与初始音频不对应;将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中,输出与初始音频对应的目标图像序列;其中,嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到,嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明专利技术的技术方案,能够提高嘴型变化的连续性以及自然性,提高图像序列和音频的同步性,提高图像序列的清晰度。

【技术实现步骤摘要】

本专利技术涉及图像处理领域,尤其涉及一种基于音频驱动的图像处理方法、设备和存储介质


技术介绍

1、嘴型生成技术是一种基于人工智能和计算机图像处理的技术,通过分析语音输入,生成与之相匹配的嘴型运动序列,从而实现逼真的嘴型合成。嘴型生成技术应用于包括动画制作、语音合成、虚拟角色表情生成、辅助听障人士的口语理解等多个领域。

2、随着虚拟角色、人机交互和增强现实等领域的发展,对于更加逼真的语音合成和嘴型生成需求逐渐增加。现有技术中,大多通过音素映射或模型训练等方法合成嘴型,但这些方法存在生成的嘴型不自然、不高清、不连续等缺点,并且存在嘴型变化与音频不同步的问题。

3、有鉴于此,特提出本专利技术。


技术实现思路

1、为了解决上述技术问题,本专利技术提供了一种基于音频驱动的图像处理方法、设备和存储介质,以提高嘴型变化的连续性以及自然性,提高图像序列和音频的同步性,提高图像序列的清晰度。

2、本专利技术实施例提供了一种基于音频驱动的图像处理方法,该方法包括:

3、获取初始图像序列以及初始音频;其中,所述初始图像序列中包括面部区域,所述面部区域包括嘴部区域;所述初始图像序列中的嘴部区域的变化与所述初始音频不对应;

4、将所述初始图像序列以及所述初始音频输入至预先训练完成的嘴部调整模型中,输出与所述初始音频对应的目标图像序列;其中,所述嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到,所述嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,所述目标图像序列中的嘴部区域的变化与所述初始音频相对应。

5、本专利技术实施例提供了一种电子设备,所述电子设备包括:

6、处理器和存储器;

7、所述处理器通过调用所述存储器存储的程序或指令,用于执行任一实施例所述的基于音频驱动的图像处理方法的步骤。

8、本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行任一实施例所述的基于音频驱动的图像处理方法的步骤。

9、本专利技术实施例具有以下技术效果:

10、通过获取初始图像序列以及初始音频,将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中,输出初始音频对应的目标图像序列,以通过嘴部调整模型中的面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块,得到嘴部区域的变化与初始音频相对应的目标图像序列,实现了提高嘴型变化的连续性以及自然性的效果。

本文档来自技高网...

【技术保护点】

1.一种基于音频驱动的图像处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预先训练完成的嘴部调整模型基于如下方式训练得到:

3.根据权利要求2所述的方法,其特征在于,所述将所述样本视频中的样本图像序列输入至所述面部特征提取模块中,得到样本面部特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层,所述第一卷积层中卷积核的尺寸与所述第二卷积层中卷积核的尺寸相同,所述第三卷积层中卷积核的尺寸小于所述第二卷积层中卷积核的尺寸;每个所述第一核心特征提取块包括第一特征提取子块以及至少两个第二特征提取子块,所述第一特征提取子块由多个深度可分离卷积层组成,所述第二特征提取子块由多头注意力机制和前馈神经网络组成;所述第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

5.根据权利要求4所述的方法,其特征在于,每个所述第一特征提取子块的输入和所述第一特征提取子块中最后一个深度可分离卷积层的输出进行残差连接,得到所述第一特征提取子块的输出;所述第二特征提取子块的输入和所述多头注意力机制的输出进行残差连接,得到所述前馈神经网络的输入;所述前馈神经网络的输入和所述前馈神经网络的输出进行残差连接,得到所述第二特征提取子块的输出。

6.根据权利要求3所述的方法,其特征在于,所述将与所述样本图像序列对应的样本音频输入至所述音频特征提取模块中,得到样本音频特征,包括:

7.根据权利要求1所述的方法,其特征在于,在所述将所述初始图像序列以及所述初始音频输入至预先训练完成的嘴部调整模型中,输出与所述初始音频对应的目标图像序列之后,还包括:

8.根据权利要求7所述的方法,其特征在于,所述初始图像生成模型包括生成器和判别器,所述目标图像生成模型基于如下方式训练得到:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至8任一项所述的基于音频驱动的图像处理方法的步骤。

...

【技术特征摘要】

1.一种基于音频驱动的图像处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预先训练完成的嘴部调整模型基于如下方式训练得到:

3.根据权利要求2所述的方法,其特征在于,所述将所述样本视频中的样本图像序列输入至所述面部特征提取模块中,得到样本面部特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层,所述第一卷积层中卷积核的尺寸与所述第二卷积层中卷积核的尺寸相同,所述第三卷积层中卷积核的尺寸小于所述第二卷积层中卷积核的尺寸;每个所述第一核心特征提取块包括第一特征提取子块以及至少两个第二特征提取子块,所述第一特征提取子块由多个深度可分离卷积层组成,所述第二特征提取子块由多头注意力机制和前馈神经网络组成;所述第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

5.根据权利要求4所述的方法,其特征在于,每个所述第一特征提取子块的输入和所述第一特征提取子块中最后一个深度可分离卷积层的输出进...

【专利技术属性】
技术研发人员:张森乐康波庞晓磊吴玲孟祥飞刘腾萧李长松蒋博为
申请(专利权)人:国家超级计算天津中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1