【技术实现步骤摘要】
视频处理方法及装置、神经网络的训练方法及装置
[0001]本公开的实施例涉及一种基于视频处理方法、视频处理装置、神经网络的训练方法、神经网络的训练装置、电子设备以及非瞬时性计算机可读存储介质。
技术介绍
[0002]嘴型同步在游戏/动漫角色配音、数字虚拟人、音唇同步的语音翻译等场景下具有广泛的应用场景。例如,用户可以提供一段音频和给定人物形象或动画形象,就可以生成对应人物的讲话视频,对应人物在讲话视频中的嘴型跟随音频的变化而相应变化,人物嘴型与音频完全匹配。
技术实现思路
[0003]本公开至少一实施例提供一种视频处理方法,包括:获取至少一个帧图像和音频片段,其中,每个帧图像包括至少一个对象,每个对象包括面部区域;对所述至少一个帧图像进行预处理,得到所述面部区域的嘴部特征信息;基于所述嘴部特征信息和所述音频片段,使用视频处理网络对所述至少一个帧图像进行处理,得到目标视频,其中,所述目标视频中的对象具有与所述音频片段同步的嘴型变化,所述嘴部特征信息至少用于向所述视频处理网络提供所述每个对象的面部区域和嘴部的基本 ...
【技术保护点】
【技术特征摘要】
1.一种视频处理方法,包括:获取至少一个帧图像和音频片段,其中,每个帧图像包括至少一个对象,每个对象包括面部区域;对所述至少一个帧图像进行预处理,得到所述面部区域的嘴部特征信息;基于所述嘴部特征信息和所述音频片段,使用视频处理网络对所述至少一个帧图像进行处理,得到目标视频,其中,所述目标视频中的对象具有与所述音频片段同步的嘴型变化,所述嘴部特征信息至少用于向所述视频处理网络提供所述每个对象的面部区域和嘴部的基本轮廓,以及所述每个对象的所述面部区域和所述嘴部的位置关系。2.根据权利要求1所述的视频处理方法,其中,对所述至少一个帧图像进行预处理,得到所述面部区域的嘴部特征信息,包括:利用嘴部模糊模型对所述每个帧图像中的对象的嘴部进行模糊处理,得到所述每个帧图像对应的嘴部模糊图片,其中,所述嘴部特征信息包括所述至少一个帧图像分别对应的至少一个嘴部模糊图片。3.根据权利要求2所述的视频处理方法,其中,利用嘴部模糊模型对所述每个帧图像中的对象的嘴部进行模糊处理,得到所述每个帧图像对应的嘴部模糊图片,包括:对所述帧图像进行第一色彩空间转换,得到第一转换图像;提取所述第一转换图像中的嘴部区域,对所述嘴部区域进行第一滤波处理,得到所述帧图像对应的嘴部模糊图片。4.根据权利要求2所述的视频处理方法,其中,利用嘴部模糊模型对所述每个帧图像中的对象的嘴部进行模糊处理,得到所述每个帧图像对应的嘴部模糊图片,包括:对所述帧图像进行第一色彩空间转换,得到第一转换图像;提取所述第一转换图像中的嘴部区域,对所述嘴部区域进行第一滤波处理,得到第一中间模糊图像;对所述帧图像进行第二色彩空间转换,得到第二转换图像;提取所述第二转换图像中的皮肤区域,从所述皮肤区域中选择包括嘴部的预设区域;对所述预设区域进行第二滤波处理,得到第二中间模糊图像;对所述第一中间模糊图像和所述第二中间模糊图像进行合成处理,得到所述帧图像对应的嘴部模糊图片。5.根据权利要求4所述的视频处理方法,其中,所述第一色彩空间为HSI色彩空间,所述第二色彩空间为YCbCr色彩空间。6.根据权利要求2所述的视频处理方法,其中,对所述至少一个帧图像进行预处理,得到所述面部区域的嘴部特征信息,还包括:对所述至少一个嘴部模糊图片进行梯度特征提取,得到每个嘴部模糊图片对应的梯度特征图,其中,所述嘴部特征信息还包括所述至少一个嘴部模糊图片分别对应的至少一个梯度特征图。7.根据权利要求6所述的视频处理方法,其中,对所述至少一个嘴部模糊图片进行梯度特征提取,得到每个嘴部模糊图片对应的梯度特征图,包括:
获取所述每个嘴部模糊图片对应的灰度图;获取第一卷积核和第二卷积核,其中,所述第一卷积核的尺寸小于所述第二卷积核的尺寸,所述第一卷积核中的所有元素之和为0,所述第二卷积核中的所有元素之和为0;将所述灰度图与所述第一卷积核和所述第二卷积核进行卷积处理,得到所述每个嘴部模糊图片对应的梯度图。8.根据权利要求2所述的视频处理方法,其中,对所述至少一个帧图像进行预处理,得到所述面部区域的嘴部特征信息,还包括:利用面部关键点检测模型对所述每个帧图像进行处理,得到多个面部关键点;提取所述多个面部关键点中与嘴部相关的多个嘴部关键点,其中,所述嘴部特征信息还包括所述多个嘴部关键点。9.根据权利要求2
‑
8任一项所述的视频处理方法,其中,所述视频处理网络包括特征提取子网络和解码生成子网络,基于所述嘴部特征信息和所述音频片段,使用所述视频处理网络对所述至少一个帧图像进行处理,包括:对所述音频片段进行频谱转换处理,得到特征频谱;利用所述特征提取子网络对所述至少一个嘴部模糊图片和所述特征频谱进行特征提取处理,得到M个视觉特征向量,其中,所述M个视觉特征向量与所述音频片段相匹配,M为正整数且小于等于所述至少一个嘴部模糊图片的数量;利用所述解码生成子网络对所述M个视觉特征向量进行处理,得到M个目标帧,其中,所述M个目标帧与所述音频片段中M个时点一一对应,且所述M个目标帧中每个目标帧具有与所述音频片段中对应时点对应的嘴型;根据所述M个目标帧得到所述目标视频。10.根据权利要求9所述的视频处理方法,其中,利用所述特征提取子网络对所述至少一个嘴部模糊图片和所述特征频谱进行特征提取处理,得到M个视觉特征向量,包括:将所述至少一个嘴部模糊图片依序分成M组,利用所述特征提取网络提取每组对应的视觉特征向量,以得到所述M个视觉特征向量。11.根据权利要求9所述的视频处理方法,其中,所述嘴部特征信息还包括所述至少一个嘴部模糊图片分别对应的至少一个梯度特征图,利用所述特征提取子网络对所述至少一个嘴部模糊图片和所述特征频谱进行特征提取处理,得到M个视觉特征向量,包括:利用所述特征提取子网络对所述至少一个嘴部模糊图片、所述至少一个梯度特征图和所述特征频谱进行特征提取处理,得到M个视觉特征向量,其中,所述至少一个梯度特征图用于为所述特征提取子网络提供对应的嘴部模糊图片中模糊区域和非模糊区域的范围。12.根据权利要求9所述的视频处理方法,其中,所述嘴部特征信息还包括多个嘴部关键点,利用所述解码生成...
【专利技术属性】
技术研发人员:陈奕名,王麒铭,栾鹏龙,兰永亮,贾兆柱,
申请(专利权)人:新东方教育科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。