一种视频数据处理方法技术

技术编号:39659961 阅读:21 留言:0更新日期:2023-12-09 11:29
本发明专利技术公开了一种视频数据处理方法

【技术实现步骤摘要】
一种视频数据处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能
,尤其是一种视频数据处理方法

装置

电子设备及存储介质


技术介绍

[0002]随着目标对象需求与媒体技术的发展,视频的数量也呈指数级的爆炸增长,对视频进行剪辑也成为人们关注的视频处理方式

视频剪辑技术是一种将待剪辑对象通过剪辑的方式合成一段剪辑视频的视频处理方式,常应用于短视频制作

体育赛事集锦

影视剧专辑

影视预告片等视频剪辑场景

[0003]目前,视频剪辑方法需要通过人工提前选取一些目标视频帧,然后将这些目标视频帧组合起来得到剪辑集锦

在这个过程中,视频帧的选取无法实现自动化,导致处理效率低;而且,选取的图像质量标准会因人员变动而参差不齐,导致最终成片质量不稳定

另外,相关视频剪辑的过程基于视频帧的顺序或乱序组合得到最终集锦,缺乏组合的逻辑性,导致组合得到的集锦没有剧情逻辑性,影响了视频剪辑的质量


技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种视频数据处理方法

装置

电子设备及存储介质,以提高视频剪辑过程的处理效率,并提升视频剪辑质量

[0005]本专利技术实施例的一方面提供了一种视频数据处理方法,包括以下步骤:获取第一视频文件和第二视频文件;其中,所述第一视频文件包括含有目标对象画面的视频帧;所述第二视频文件包括含有目标动作画面的视频帧;对所述第一视频文件中各个视频帧进行目标对象的第一识别,得到包含所述目标对象画面的候选视频帧;对各个所述候选视频帧中的目标对象画面进行图像质量的评分,确定目标视频帧;其中,每个所述目标视频帧中出现的所述目标对象画面的图像质量的评分满足评分阈值要求;对所述第二视频文件中各个视频帧进行目标动作的第二识别,得到分镜动作逻辑信息;其中,所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑根据所述目标视频帧和所述分镜动作逻辑信息,生成目标视频

[0006]另一方面,本专利技术实施例还提供了一种视频数据处理装置,包括:第一模块,用于获取第一视频文件和第二视频文件;其中,所述第一视频文件包括含有目标对象画面的视频帧;所述第二视频文件包括含有目标动作画面的视频帧;第二模块,用于对所述第一视频文件中各个视频帧进行目标对象的第一识别,得到包含所述目标对象画面的候选视频帧;第三模块,用于对各个所述候选视频帧中的目标对象画面进行图像质量的评分,
确定目标视频帧;其中,每个所述目标视频帧中出现的所述目标对象画面的图像质量的评分满足评分阈值要求;第四模块,用于对所述第二视频文件中各个视频帧进行目标动作的第二识别,得到分镜动作逻辑信息;其中,所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑;第五模块,用于根据所述目标视频帧和所述分镜动作逻辑信息,生成目标视频

[0007]可选地,本专利技术实施例中的视频数据处理装置,第二模块包括:第一单元,用于对所述第一视频文件中每个视频帧进行人脸检测,确定视频帧中人脸定位信息;第二单元,用于根据所述人脸定位信息从各个视频帧中切割得到人脸图片;第三单元,用于对所述人脸图片进行图像编码处理,得到所述人脸图片对应的人物信息;第四单元,用于将所述人物信息与目标对象的人脸库进行匹配,确定包含所述目标对象的人脸图片,并确定对应的所述候选视频帧

[0008]可选地,本专利技术实施例中的视频数据处理装置,第一单元包括:第一子单元,用于对每个视频帧对应的图像进行图像缩放处理,得到特定尺寸大小的多张图像,并构建图像金字塔;第二子单元,用于将所述图像金字塔中每个图像输入候选网络进行人脸区域的框选,得到候选框;第三子单元,用于将所述候选框输入细化网络进行优化,得到目标框;第四子单元,用于将所述目标框输入输出网络进行坐标转换,得到所述目标框对应的人脸坐标,确定所述人脸定位信息

[0009]可选地,本专利技术实施例中的视频数据处理装置,第三模块包括:第五单元,用于根据所述候选视频帧中的目标对象画面,生成所述候选视频帧的二值化掩膜;第六单元,用于通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后,将各个网络层的映射结果与对应的二值化掩膜相乘,得到不同维度的第一特征图;第七单元,用于根据各个所述第一特征图对应的向量表征结果,对目标对象画面进行图像质量的评分,得到每个所述候选视频帧的所述目标对象画面的图像质量的评分;第八单元,用于根据所述图像质量的评分,从所述候选视频帧中确定所述目标视频帧

[0010]可选地,本专利技术实施例中的视频数据处理装置,第六单元包括:第五子单元,用于将所述候选视频帧的目标对象画面依次输入所述二维卷积神经网络的各个网络层进行特征映射,得到不同维度的映射结果;第六子单元,用于对于每个维度的映射结果,将所述二值化掩膜与当前维度对应的相关系数相乘得到赋值矩阵后,将所述赋值矩阵与当前维度的映射结果相乘,得到当前维度的第一特征图;其中,所述相关系数用于表征在所述候选视频帧的画面中人脸画面与非人脸画面
之间的占比信息

[0011]可选地,本专利技术实施例中的视频数据处理装置,第七单元包括:第七子单元,用于将各个所述第一特征图进行池化处理,得到统一尺寸的多个第一目标图;第八子单元,用于将各个所述第一目标图进行特征融合,得到第二目标图;第九子单元,用于将所述第二目标图进行矩阵维度转换,得到所述第二目标图的向量表征结果;第十子单元,用于根据所述向量表征结果对目标对象画面进行图像质量的评分,得到每个所述候选视频帧的所述目标对象画面的图像质量的评分

[0012]可选地,本专利技术实施例中的视频数据处理装置,第十子单元包括:第一分部单元,用于对所述向量表征结果进行二分类激活,得到所述目标对象画面属于第一类别或第二类别的分类结果;第二分部单元,用于根据所述目标对象画面属于所述第一类别的置信度,确定每个所述候选视频帧的所述目标对象画面的图像质量的评分

[0013]可选地,本专利技术实施例中的视频数据处理装置,还包括:第六模块,用于获取各个所述候选视频帧的目标对象画面的图像质量的评分;第七模块,用于根据各个所述候选视频帧的时序信息,计算各个图像质量的评分的平均值,得到所述评分阈值

[0014]可选地,本专利技术实施例中的视频数据处理装置,第四模块包括:第九单元,用于根据所述第二视频文件中各个视频帧的时间信息对各个视频帧进行特征融合,得到各个视频帧的特征表征信息;其中,不同视频帧的所述特征表征信息之间具有时域关联性;第十单元,用于通过激活函数对所述特征表征信息进行激活处理,确定各个视频帧的动作标签;第十一单元,用于根据各个视频帧的时间信息和所述动作标签,确定分镜本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种视频数据处理方法,其特征在于,包括:获取第一视频文件和第二视频文件;其中,所述第一视频文件包括含有目标对象画面的视频帧;所述第二视频文件包括含有目标动作画面的视频帧;对所述第一视频文件中各个视频帧进行目标对象的第一识别,得到包含所述目标对象画面的候选视频帧;对各个所述候选视频帧中的目标对象画面进行图像质量的评分,确定目标视频帧;其中,每个所述目标视频帧中出现的所述目标对象画面的图像质量的评分满足评分阈值要求;对所述第二视频文件中各个视频帧进行目标动作的第二识别,得到分镜动作逻辑信息;其中,所述分镜动作逻辑信息用于表征包含所述目标动作的各个视频帧之间的动作时序逻辑;根据所述目标视频帧和所述分镜动作逻辑信息,生成目标视频
。2.
根据权利要求1所述的视频数据处理方法,其特征在于,所述对所述第一视频文件中各个视频帧进行目标对象的第一识别,得到包含所述目标对象画面的候选视频帧,包括:对所述第一视频文件中每个视频帧进行人脸检测,确定视频帧中人脸定位信息;根据所述人脸定位信息从各个视频帧中切割得到人脸图片;对所述人脸图片进行图像编码处理,得到所述人脸图片对应的人物信息;将所述人物信息与目标对象的人脸库进行匹配,确定包含所述目标对象的人脸图片,并确定对应的所述候选视频帧
。3.
根据权利要求2所述的视频数据处理方法,其特征在于,所述对所述第一视频文件中每个视频帧进行人脸检测,确定视频帧中人脸定位信息,包括:对每个视频帧对应的图像进行图像缩放处理,得到特定尺寸大小的多张图像,并构建图像金字塔;将所述图像金字塔中每个图像输入候选网络进行人脸区域的框选,得到候选框;将所述候选框输入细化网络进行优化,得到目标框;将所述目标框输入输出网络进行坐标转换,得到所述目标框对应的人脸坐标,确定所述人脸定位信息
。4.
根据权利要求1所述的视频数据处理方法,其特征在于,所述对各个所述候选视频帧中的目标对象画面进行图像质量的评分,确定目标视频帧,包括:根据所述候选视频帧中的目标对象画面,生成所述候选视频帧的二值化掩膜;通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后,将各个网络层的映射结果与对应的二值化掩膜相乘,得到不同维度的第一特征图;根据各个所述第一特征图对应的向量表征结果,对目标对象画面进行图像质量的评分,得到每个所述候选视频帧的所述目标对象画面的图像质量的评分;根据所述图像质量的评分,从所述候选视频帧中确定所述目标视频帧
。5.
根据权利要求4所述的视频数据处理方法,其特征在于,所述通过二维卷积神经网络对所述候选视频帧的目标对象画面进行特征映射后,将各个网络层的映射结果与对应的二值化掩膜相乘,得到不同维度的第一特征图,包括:将所述候选视频帧的目标对象画面依次输入所述二维卷积神经网络的各个网络层进
行特征映射,得到不同维度的映射结果;对于每个维度的映射结果,将所述二值化掩膜与当前维度对应的相关系数相乘得到赋值矩阵后,将所述赋值矩阵与当前维度的映射结果相乘,得到当前维度的第一特征图;其中,所述相关系数用于表征在所述候选视频帧的画面中人脸画面与非人脸画面之间的占比信息
。6.
根据权利要求4所述的视频数据处理方法,其特征在于,所述根据各个所述第一特征图对应的向量表征结果,对目标对象画面进行图像质量的评分,得到每个所述候选视频帧的所述目标对象画面的图像质量的评分,包括:将各个所述第一特征图进行池化处理,得到统一尺寸的多个第一目标图;将各个所述第一目标图进行特征融合,得到第二目标图;将所述第二目标图进行矩阵维度转换,得到所述第二目标图的向量表征结果;根据所述向量表征结果对目标对象画面进行图像质量的评分,得到每个所述候选视频帧的所述目标对象画面的图像质量的评分
。7.
根据权利要求6所述的视频数据处理方法,其特征在于,所述根据所述向量表...

【专利技术属性】
技术研发人员:冯鑫
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1