视频处理方法、装置及电子设备制造方法及图纸

技术编号:36186525 阅读:17 留言:0更新日期:2022-12-31 20:51
本发明专利技术提供了一种视频处理方法、装置及电子设备,涉及影像处理的技术领域,该方法包括:获取待合成语音数据以及目标对象的视频数据;提取待合成语音数据包含的语音帧,以及,按照视频帧选择策略从视频数据中提取与语音帧对应的视频帧;将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,生成视频帧对应的目标帧;基于目标帧输出所述视频数据对应的目标影像。本发明专利技术提供的视频处理方法、装置及电子设备,可以实现对视频数据的流式处理,实时地合成目标影像,并且,合成过程参考了视频帧的脸部特征参数和姿态参数,可以使目标影像中包含有全身的动作,使得最终合成的目标影像更像生动逼真。影像更像生动逼真。影像更像生动逼真。

【技术实现步骤摘要】
视频处理方法、装置及电子设备


[0001]本专利技术涉及影像处理的
,尤其是涉及一种视频处理方法、装置及电子设备。

技术介绍

[0002]真人影像合成通常指的是给定一段输入的语音,合成一段真人影像视频,且,该视频中的人物说话口型与输入的语音相吻合,以便于使合成的真人影像视频具有非常高的清晰度和逼真度。
[0003]目前,真人影像合成技术在许多领域都有广泛的应用,比如在新闻领域可以作为虚拟主持人做新闻播报的工作,在金融领域可以作为虚拟客服引导顾客操作业务等等,但是,目前的真人影像合成过程多是提前录制的,难以进行实时交互,并且,在合成过程中,往往不考虑人物的动作,导致合成的真人影像的合成效果不明显。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种视频处理方法、装置及电子设备,以缓解上述技术问题。
[0005]第一方面,本专利技术实施例提供了一种视频处理方法,包括:获取待合成语音数据以及目标对象的视频数据;提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;基于所述目标帧输出所述视频数据对应的目标影像。
[0006]第二方面,本专利技术实施例提供了一种视频处理装置,包括:获取模块,用于获取待合成语音数据以及目标对象的视频数据;提取模块,用于提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;融合模块,用于将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;输出模块,用于基于所述目标帧输出所述视频数据对应的目标影像。
[0007]第三方面,本专利技术实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
[0008]第四方面,本专利技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
[0009]本专利技术实施例带来了以下有益效果:
[0010]本专利技术实施例提供的视频处理方法、装置及电子设备,能够获取待合成语音数据以及目标对象的视频数据;提取待合成语音数据包含的语音帧,以及,按照预先设置的视频
帧选择策略从视频数据中提取与语音帧对应的视频帧;并将语音帧的口型参数与视频帧的脸部特征参数和姿态参数进行融合处理,生成视频帧对应的目标帧;进而基于目标帧输出视频数据对应的目标影像,并且,在融合处理过程中参考了视频帧的脸部特征参数和姿态参数,可以使输出的目标影像中包含有全身的动作,如手势、头部运动等等,使得最终合成的目标影像更像生动逼真。
[0011]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0012]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0013]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1为一种真人影像合成技术的示意图;
[0015]图2为本专利技术实施例提供的一种视频处理方法的流程图;
[0016]图3为本专利技术实施例提供的一种视频处理方法的完整流程图;
[0017]图4为本专利技术实施例提供的一种视频数据预处理过程示意图;
[0018]图5为本专利技术实施例提供的一种语音数据预处理过程示意图;
[0019]图6为本专利技术实施例提供的一种视频帧选择与处理过程示意图;
[0020]图7为本专利技术实施例提供的一种视频帧生成过程示意图;
[0021]图8为本专利技术实施例提供的一种视频处理装置的示意图;
[0022]图9为本专利技术实施例提供的另一种视频处理装置的示意图;
[0023]图10为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0024]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]目前,真人影像合成技术的实现如图1所示,给定一段输入语音,采取真人影像合成技术合成一段真人影像视频,其目的是使合成的视频中的人物说话口型与输入语音相吻合,且合成的真人影像视频具有非常高的清晰度和逼真度。但是,目前的真人影像合成技术多是在离线状态下进行的真人影像合成,难以进行实时交互,并且,在合成过程中通常只考虑输入语音的口型,并没有加入全身动作,导致合成的真人影像逼真效果不明显。
[0026]基于此,本专利技术实施例提供的一种视频处理方法、装置及电子设备,可以实现流式的真人影像合成功能,并充分考虑人物的动作,使得合成的真人影像更加生动逼真。
[0027]为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种视频处理方法进行详细介绍。
[0028]在一种可能的实施方式中,本专利技术实施例提供了一种视频处理方法,具体地,该方法可以应用于视频处理设备,也可以应该于与视频处理设备通信的服务器,以便于执行本专利技术实施例提供的视频处理方法,图2示出了一种视频处理方法的流程图,如图2所示,包括以下步骤:
[0029]步骤S202,获取待合成语音数据以及目标对象的视频数据;
[0030]其中,上述待合成语音数据可以是目标对象的视频数据经过融合之后得到的最终的语音数据,即,目标影像最终输出的语音为该待合成语音数据。目标对象可以是主播、主持人、演员等。该视频数据通常是在数据准备与预处理阶段对目标对象进行视频录制得到的,例如,假设目标对象是一个演员,则可以录制20分钟左右的视频,作为本专利技术实施例中的视频数据,并且,该视频数据的录制过程可以是实时录制的,也可以是提前录制的。对于实时录制的视频数据,本专利技术实施例提供的视频处理方法可以流式地合成真人影像,实现实时的交互,对于提前录制的视频数据,也可以得到流畅的真人影像。
[0031]步骤S204,提取待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从视频数据中提取与语音帧对应的视频帧;
[0032]其中,该步骤中使用的视频帧选择策略是为了从本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取待合成语音数据以及目标对象的视频数据;提取所述待合成语音数据包含的语音帧,以及,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧;将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧;基于所述目标帧输出所述视频数据对应的目标影像。2.根据权利要求1所述的方法,其特征在于,按照预先设置的视频帧选择策略从所述视频数据中提取与所述语音帧对应的视频帧的步骤,包括:检测所述语音帧的帧状态;基于所述帧状态,按照预先设置的所述视频帧选择策略从所述视频数据中逐帧提取与所述语音帧对应的视频帧。3.根据权利要求2所述的方法,其特征在于,所述帧状态包括静音状态或者说话状态中的任意一种;基于所述帧状态,按照预先设置的所述视频帧选择策略从所述视频数据中逐帧提取与所述语音帧对应的视频帧的步骤,包括:如果所述语音帧的帧状态是说话状态,则将所述视频数据中的当前帧确定为所述语音帧对应的视频帧;如果所述语音帧的帧状态是静音状态,则选择所述视频数据中距离当前视频帧最近的标记有静音标签的视频帧作为所述语音帧对应的视频帧。4.根据权利要求1所述的方法,其特征在于,将所述语音帧的口型参数与所述视频帧的脸部特征参数和姿态参数进行融合处理,生成所述视频帧对应的目标帧的步骤,包括:基于所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数生成所述视频帧对应的预合成图像;对所述预合成图像进行融合处理,生成所述视频帧对应的目标帧。5.根据权利要求4所述的方法,其特征在于,所述基于所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数生成所述视频帧对应的预合成图像的步骤,包括:将所述语音帧的口型参数、所述视频帧的脸部特征参数和姿态参数作用于预先建立的初始三维人脸模型,得到三维人脸形变模型;将所述三维人脸形变模型的面部关键点投影到所述视频帧,得到所述视频帧对应的预合成图像。6.根据...

【专利技术属性】
技术研发人员:张智勐丁彧许健刘思彦宋林海赵增刘杨吕唐杰范长杰胡志鹏
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1