一种视频人物唇形检测生成的方法及装置制造方法及图纸

技术编号:28056039 阅读:32 留言:0更新日期:2021-04-14 13:26
本申请公开了一种视频人物唇形检测生成的方法及装置,包括:提取输入视频中的视频帧图像;基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;对经过滤波处理的唇形生成图像进行视频生成处理。本申请将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合,基于视频的前景人物的唇形检测与生成,可广泛应用于语音识别、多媒体系统、人物识别等领域。人物识别等领域。人物识别等领域。

【技术实现步骤摘要】
一种视频人物唇形检测生成的方法及装置


[0001]本申请涉及计算机视觉特征检测
,特别是涉及一种视频人物唇形检测生成的方法及装置。

技术介绍

[0002]唇形检测(Lip detection)技术是指输入为图片或视频,通过提取唇形特征信息,确认唇形特征点轨迹的检测,从而从图片或视频中将任务唇形检测的过程。唇形检测在语音识别、身份识别、多媒体系统等多个领域具有较高的应用价值。基于视频的唇形检测与基于图片的唇形检测不同,除了提取唇形特征外,还需要将唇形边缘重新生成视频。而这个过程,由于视频中不同帧间的差距会影响整体唇形生成的效果,如,容易出现抖动和不自然的现象。因此,如何减少帧间的相互影响,是基于视频的前景人物唇形生成中非常重要的部分。
[0003]针对视频中前景人物的唇形边缘检测的核心问题是如何在有效提取唇形关键点、唇形边缘以及唇形运动轨迹的前提下,能够减少相邻帧之间的相互影响,从而减少生成唇形边缘的视频中的抖动问题。
[0004]传统的唇形边缘提取并重新生成的方式是,对视频中的每一帧图像进行特征提取,从而获取特征点,依据特征点完成唇形边缘的再塑。这样处理的问题在于,当帧间像素点对应差距值过大时,生成的唇形轨迹视频会出现明显的抖动现象,尤其是在前景人物在不断地讲话过程。而如果对每一帧都进行平滑处理,会直接影响特征提取的效率。

技术实现思路

[0005]本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
[0006]根据本申请的一个方面,提供了一种视频人物唇形检测生成的方法,包括:
[0007]提取输入视频中的视频帧图像;
[0008]基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
[0009]利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
[0010]对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
[0011]对经过滤波处理的唇形生成图像进行视频生成处理。
[0012]优选地,对经过滤波处理的唇形生成图像进行视频生成处理包括:
[0013]调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
[0014]将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
[0015]优选地,对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之
间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
[0016]利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
[0017]优选地,采用均值滤波处理包括:
[0018]利用N
×
N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
[0019]优选地,获取预设时序数据网络模型包括:
[0020]利用深度学习技术,训练得到基于特征点的时序数据网络模型。
[0021]第二方面,本专利技术还提供一种视频人物唇形检测生成的装置,包括:
[0022]视频图像模块,设置为提取输入视频中的视频帧图像;
[0023]面部提取模块,设置为基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;
[0024]唇形生成模块,设置为利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;
[0025]滤波模块,设置为对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;
[0026]合成模块,设置为对经过滤波处理的唇形生成图像进行视频生成处理。
[0027]优选地,所述合成模块对经过滤波处理的唇形生成图像进行视频生成处理包括:
[0028]调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;
[0029]将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。
[0030]优选地,所述滤波模块对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:
[0031]利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。
[0032]优选地,所述滤波模块采用均值滤波处理包括:
[0033]利用N
×
N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。
[0034]优选地,所述唇形生成模块获取预设时序数据网络模型包括:
[0035]利用深度学习技术,训练得到基于特征点的时序数据网络模型。
[0036]本申请的视频人物唇形检测生成的方法及装置,将加入阈值处理后的均值滤波平滑处理与基于深度学习的唇形特征点提取的方法相结合,基于视频的前景人物的唇形检测与生成,可广泛应用于语音识别、多媒体系统、人物识别等领域。
[0037]根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
[0038]后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些
附图未必是按比例绘制的。附图中:
[0039]图1是根据本申请一个实施例的视频人物唇形检测生成的方法的示意性流程图;
[0040]图2是根据本申请一个实施例的时序数据网络模型的结构示意图;
[0041]图3是根据本申请一个实施例的视频人物唇形检测生成的装置的结构示意图;
[0042]图4是根据本申请一个实施例的视频中提取的视频帧图像的示意图;
[0043]图5是根据本申请一个实施例的平滑处理的唇形边缘的示意图;
[0044]图6是根据本申请一个实施例的平滑处理的唇形边缘的帧间差距的示意图;其中,图6(a)为图5前面两幅图的唇形边缘的帧间差距示意图;图6(b)为图5后面两幅图的唇形边缘的帧间差距示意图;
[0045]图7是根据本申请一个实施例的视频人物唇形检测生成的流程图;
[0046]图8是根据本申请实施例的第一种计算机可读存储介质的的示意性结构框图;
[0047]图9是根据本申请实施例的第二种计算机可读存储介质的的示意性结构框图。
具体实施方式
[0048]图1是根据本申请一个实施例的视频人物唇形检测生成的方法的流程图,所述方法可以包括本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频人物唇形检测生成的方法,包括:提取输入视频中的视频帧图像;基于所述视频帧图像的全局特征和局部特征,提取所述视频帧图像的面部区域和背景;利用预设时序数据网络模型对所述视频帧图像的面部区域和背景进行边缘提取,生成所述视频帧图像对应的唇形生成图像;对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理;对经过滤波处理的唇形生成图像进行视频生成处理。2.根据权利要求1所述的方法,其特征在于,对经过滤波处理的唇形生成图像进行视频生成处理包括:调整经过滤波处理的唇形生成图像的唇形角度,使所述唇形平面内旋转角为零;将从所述输入视频提取的音频数据与调衡后唇形生成图像进行合成,得到唇形视频。3.根据权利要求1或2所述的方法,其特征在于,对于所述唇形生成图像,利用连续帧相减法计算相邻两帧视频帧图像之间的差距,根据所述差距对所述唇形生成图像进行滤波处理包括:利用连续帧相减法计算相邻两帧视频帧图像之间的差距,当所述差距大于或者等于像素点阈值时,对所述唇形生成图像采用均值滤波处理;当所述差距小于像素点阈值时,不进行滤波处理。4.根据权利要求3所述的方法,其特征在于,采用均值滤波处理包括:利用N
×
N卷积核对相邻两帧视频帧图像之间的差距进行均值处理。5.根据权利要求1所述的方法,其特征在于,获取预设时序数据网络模型包括:利用深度学习技术,训练得到基于特征点的时序数据网络模型。6.一种视频人物唇形检测生成的装置,包括:视频图像模块,设置为提取输入视频中的视频帧图...

【专利技术属性】
技术研发人员:李欣
申请(专利权)人:北京影谱科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1