视频处理方法、装置、设备及存储介质制造方法及图纸

技术编号:31826908 阅读:16 留言:0更新日期:2022-01-12 12:56
本公开实施例公开了一种视频处理方法、装置、设备及存储介质。获取原始视频及与原始视频匹配的原始音频;从原始视频中提取满足设定条件的视频片段,获得目标视频片段;对目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像;对原始音频进行重音识别,获得重音音频;对各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,并将调整后的目标对象图像与对应的背景图像进行融合,获得多个目标帧;将多个目标帧与重音音频进行音视频编码,获得目标视频,不仅可以提高视频处理的效率,且可以丰富处理后视频的呈现效果。且可以丰富处理后视频的呈现效果。且可以丰富处理后视频的呈现效果。

【技术实现步骤摘要】
视频处理方法、装置、设备及存储介质


[0001]本公开实施例涉及图像处理
,尤其涉及一种视频处理方法、装置、设备及存储介质。

技术介绍

[0002]随着智能终端中拍照技术的不断成熟,用户越来越喜欢利用智能终端录制视频以记录生活,并将拍摄的视频发布于网络进行分享。在实际场景中,用户更愿意对视频进行二次加工后在进行分享。现有技术中,用户需要手动对视频进行编辑,不仅效率低下,且编辑后的视频达不到想要的效果。

技术实现思路

[0003]本公开实施例提供一种视频处理方法、装置、设备及存储介质,不仅可以提高视频处理的效率,且可以丰富处理后视频的呈现效果。
[0004]第一方面,本公开实施例提供了一种视频处理方法,包括:
[0005]获取原始视频及与所述原始视频匹配的原始音频;
[0006]从所述原始视频中提取满足设定条件的视频片段,获得目标视频片段;
[0007]对所述目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像;
[0008]对所述原始音频进行重音识别,获得重音音频;
[0009]对所述各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,并将调整后的目标对象图像与对应的背景图像进行融合,获得多个目标帧;
[0010]将所述多个目标帧与所述重音音频进行音视频编码,获得目标视频。
[0011]第二方面,本公开实施例还提供了一种视频处理装置,包括:
[0012]原始音频获取模块,用于获取原始视频及与所述原始视频匹配的原始音频;
[0013]目标视频片段获取模块,用于从所述原始视频中提取满足设定条件的视频片段,获得目标视频片段;
[0014]图像分割模块,用于对所述目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像;
[0015]重音识别模块,对所述原始音频进行重音识别,获得重音音频;
[0016]目标帧获取模块,用于对所述各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,并将调整后的目标对象图像与对应的背景图像进行融合,获得多个目标帧;
[0017]目标视频获取模块,用于将所述多个目标帧与所述重音音频进行音视频编码,获得目标视频。
[0018]第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:
[0019]一个或多个处理装置;
[0020]存储装置,用于存储一个或多个程序;
[0021]当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现如本公开实施例所述的视频处理方法。
[0022]第四方面,本公开实施例还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现如本公开实施例所述的视频处理方法。
[0023]本公开实施例公开了一种视频处理方法、装置、设备及存储介质。获取原始视频及与原始视频匹配的原始音频;从原始视频中提取满足设定条件的视频片段,获得目标视频片段;对目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像;对原始音频进行重音识别,获得重音音频;对各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,并将调整后的目标对象图像与对应的背景图像进行融合,获得多个目标帧;将多个目标帧与重音音频进行音视频编码,获得目标视频。本公开实施例提供的视频处理方法,将调整尺寸后的目标对象图像与重音音频进行音视频编码,获得目标视频,不仅可以提高视频处理的效率,且可以丰富处理后视频的呈现效果。
附图说明
[0024]图1是本公开实施例中的一种视频处理方法的流程图;
[0025]图2是本公开实施例中的对视频帧进行目标对象分割的示例图;
[0026]图3是本公开实施例中的一种图像分割模型的示意图;
[0027]图4是本公开实施例中的一种视频处理装置的结构示意图;
[0028]图5是本公开实施例中的一种电子设备的结构示意图。
具体实施方式
[0029]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0030]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0031]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0032]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0033]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0034]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性
的目的,而并不是用于对这些消息或信息的范围进行限制。
[0035]本实施例中,要使得处理的视频具有“鬼畜”效果,“鬼畜”一般具有如下特点:相同片段重复播放、片段播放需要结合重音、会进行镜像翻转以及放大/缩小特效等。为了实现上述效果,需要对视频执行本实施公开的技术方案的处理。
[0036]图1为本公开实施例提供的一种视频处理方法的流程图,本实施例可适用于基于原始视频处理生成目标视频的情况,该方法可以由视频处理装置来执行,该装置可由硬件和/或软件组成,并一般可集成在具有视频处理功能的设备中,该设备可以是服务器、移动终端或服务器集群等电子设备。如图1所示,该方法具体包括如下步骤:
[0037]步骤110,获取原始视频及与原始视频匹配的原始音频。
[0038]其中,原始视频可以是用户通过智能终端的摄像头拍摄的、本地存储的、从网络中视频库中下载获得的或者是其他用户发送过来的。此处对原始视频的来源不做限定。原始音频可以是节奏感较强的音频。
[0039]本实施例中,获取与原始视频匹配的原始音频的方式可以是:根据用户的选择操作获取与原始视频相匹配的原始音频;或者,识别原始视频的类型信息;基于类型信息获取与原始视频相匹配的原始音频。
[0040]其中,用户选择的方式可以是用户指定的音频,或者APP提供音频模板后用户选择的。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,其特征在于,包括:获取原始视频及与所述原始视频匹配的原始音频;从所述原始视频中提取满足设定条件的视频片段,获得目标视频片段;对所述目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像;对所述原始音频进行重音识别,获得重音音频;对所述各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,并将调整后的目标对象图像与对应的背景图像进行融合,获得多个目标帧;将所述多个目标帧与所述重音音频进行音视频编码,获得目标视频。2.根据权利要求1所述的方法,其特征在于,获取与所述原始视频匹配的原始音频,包括:根据用户的选择操作获取与所述原始视频相匹配的原始音频;或者,识别所述原始视频的类型信息;基于所述类型信息获取与所述原始视频相匹配的原始音频。3.根据权利要求1所述的方法,其特征在于,从所述原始视频中提取满足设定条件的视频片段,获得目标视频片段,包括:获取所述原始视频中每个视频帧的特征向量;对所述特征向量进行聚类,获得聚类后的多个初始视频片段;基于所述特征向量从所述多个初始视频片段中分别提取满足设定条件的视频片段,获得目标视频片段。4.根据权利要求3所述的方法,其特征在于,基于所述特征向量从所述多个初始视频片段中分别提取满足设定条件的视频片段,获得目标视频片段,包括:计算相邻视频帧的特征向量间的距离;在所述距离大于第一阈值的情况下,将包含所述相邻视频帧的设定时长的视频片段确定为目标视频片段;在第一时长内的视频片段满足如下条件的情况下,将所述第一时长的视频片段确定为目标视频片段:相邻视频帧的特征向量间的距离均小于第二阈值,且第N帧的特征向量与前N

1帧加权求和后的特征向量间的距离小于第三阈值;其中,1≤N≤第一时长的视频片段包含的帧数量。5.根据权利要求1所述的方法,其特征在于,对所述目标视频片段的每个视频帧分别进行目标对象的分割,获得各视频帧分别对应的目标对象图像和背景图像,包括:对所述目标视频片段的每个视频帧进行人像识别;若识别到人像,则将识别到的人像确定为目标对象;若未识别到人像,则对所述目标视频片段的每个视频帧进行主体物体的识别,并将识别到的主体物体确定为目标对象;将所述目标对象与背景进行分割,获得各视频帧分别对应的目标对象图像和背景图像。6.根据权利要求1所述的方法,其特征在于,对所述原始音频进行重音识别,获得重音
音频,包括:对所述原始音频进行去噪处理;对去噪后的原始音频进行音符起始点检测,获得音符起始点;采用峰值检测算法对去噪后的原始音频的峰值进行检测,获得满足设定条件的峰值点;根据所述峰值点和所述音符起始点确定重音音频。7.根据权利要求1所述的方法,其特征在于,对所述各视频帧中的目标对象图像的尺寸按照不同的调整比例依次进行调整,包括:获取所述目标视频片段包含的视频帧数量;根据所述视频帧数量确定调整比例的变化方式,获得视频帧数量的调整比例;其中,变化方式包括变化趋势以及变化步长;根据视频帧数量的调整比例依次对所述各视频帧中的目标对象图像的尺寸进行调整。8.根据权利要求1所述的方法,其特征在于,所述重音音频包括重音起始点和重音终止点,将所述多个目标帧与所述重音音频进行音视频编码,获得目...

【专利技术属性】
技术研发人员:黄佳斌
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1