基于音频驱动的图像处理方法、设备和存储介质技术

技术编号：41244492 阅读：22 留言：0更新日期：2024-05-09 23:55

本发明专利技术涉及图像处理领域，公开了一种基于音频驱动的图像处理方法、设备和存储介质，该方法包括：获取初始图像序列以及初始音频；其中，初始图像序列中的嘴部区域的变化与初始音频不对应；将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出与初始音频对应的目标图像序列；其中，嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到，嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明专利技术的技术方案，能够提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理领域，尤其涉及一种基于音频驱动的图像处理方法、设备和存储介质。

技术介绍

1、嘴型生成技术是一种基于人工智能和计算机图像处理的技术，通过分析语音输入，生成与之相匹配的嘴型运动序列，从而实现逼真的嘴型合成。嘴型生成技术应用于包括动画制作、语音合成、虚拟角色表情生成、辅助听障人士的口语理解等多个领域。

2、随着虚拟角色、人机交互和增强现实等领域的发展，对于更加逼真的语音合成和嘴型生成需求逐渐增加。现有技术中，大多通过音素映射或模型训练等方法合成嘴型，但这些方法存在生成的嘴型不自然、不高清、不连续等缺点，并且存在嘴型变化与音频不同步的问题。

3、有鉴于此，特提出本专利技术。

技术实现思路

1、为了解决上述技术问题，本专利技术提供了一种基于音频驱动的图像处理方法、设备和存储介质，以提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度。

2、本专利技术实施例提供了一种基于音频驱动的图像处理方法，该方法包括：

3、获取初始图本文档来自技高网...

【技术保护点】

1.一种基于音频驱动的图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练完成的嘴部调整模型基于如下方式训练得到：

3.根据权利要求2所述的方法，其特征在于，所述将所述样本视频中的样本图像序列输入至所述面部特征提取模块中，得到样本面部特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层，所述第一卷积层中卷积核的尺寸与所述第二卷积层中卷积核的尺寸相同，所述第三卷积层中卷积核的尺寸小于所述第二卷积层中卷积核的尺寸；每个所述第一核心特征提取块包括第一特...

【技术特征摘要】

1.一种基于音频驱动的图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练完成的嘴部调整模型基于如下方式训练得到：

3.根据权利要求2所述的方法，其特征在于，所述将所述样本视频中的样本图像序列输入至所述面部特征提取模块中，得到样本面部特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层，所述第一卷积层中卷积核的尺寸与所述第二卷积层中卷积核的尺寸相同，所述第三卷积层中卷积核的尺寸小于所述第二卷积层中卷积核的尺寸；每个所述第一核心特征提取块包括第一特征提取子块以及至少两个第二特征提取子块，所述第一特征提取子块由多个深度可分离卷积层组成，所述第二特征提取子块由多头注意力机制和前馈神经网络组成；所述第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

5.根据权利要求4所述的方法，其特征在于，每个所述第一特征提取子块的输入和所述第一特征提取子块中最后一个深度可分离卷积层的输出进...

【专利技术属性】
技术研发人员：张森乐，康波，庞晓磊，吴玲，孟祥飞，刘腾萧，李长松，蒋博为，
申请(专利权)人：国家超级计算天津中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人