视频标签的确定方法和装置、存储介质及电子设备制造方法及图纸

技术编号:31229966 阅读:18 留言:0更新日期:2021-12-08 09:59
本发明专利技术公开了一种视频标签的确定方法和装置、存储介质及电子设备。其中,该方法包括:在视频标签确定的过程中,在视频级特征的基础上,融合图片级特征得到融合特征,以确定视频的视频标签,从而实现即使从视频中抽取的视频帧中只有少量视频帧包含目标对象,也能结合图片级特征准确地定位到目标对象(而非其他内容)上,使得确定出的视频标签更准确,进而解决了现有技术中,确定的视频标签准确性较低的技术问题。术问题。术问题。

【技术实现步骤摘要】
视频标签的确定方法和装置、存储介质及电子设备


[0001]本专利技术涉及数据处理
,具体而言,涉及一种视频标签的确定方法和装置、存储介质及电子设备。

技术介绍

[0002]随着网络技术的快速发展,多媒体的推广应用,各种视频源源不断地产生,视频等媒体数据已经成为大数据的主体,视频标签是视频内容的一种高度概括,是视频管理的重要依据。在视频推荐系统中,视频标签可用于计算视频相似度,进而基于用户喜好向用户推荐相似视频。针对大量视频如何自动生成相关的标签,将对满足用户的信息获取需求有重大意义。
[0003]现有技术方案大多聚焦于单独的视频多标签分类模型,如从视频中抽取部分关键帧图像,利用训练好的分类模型对每个关键帧图像进行分类得到每个关键帧图像的标签,根据关键帧对应的标签得到视频的标签。在视频背景变化复杂、或帧与帧之间跳动剧烈时,容易学到不正确的特征。以汽车标签识别为例,有些车型评测视频会经常在人物解说与车辆展示之间变化。当人物解说占据大多数时长时,所抽取的帧可能只有少数包含车辆,而大多数拍摄的都是人物。此时,单独的视频分类模型容易受到数据平衡性影响,会在占据大多数时长的人物镜头上学习车型的特征,导致模型学到错误的特征,从而使得视频分类模型输出的视频标签不准确。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种视频标签的确定方法和装置、存储介质及电子设备,以至少解决现有技术中,确定的视频标签准确性较低的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种视频标签的确定方法,包括:从目标视频中抽取一组视频帧;获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征;获取所述一组视频帧中的每个视频帧的图片级特征,得到一组图片级特征;将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征;根据所述第一组融合特征,确定所述目标视频的视频标签。
[0007]根据本专利技术实施例的另一方面,还提供了一种视频标签的确定装置,包括:视频帧抽取单元,用于从目标视频中抽取一组视频帧;第一获取单元,用于获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征;第二获取单元,用于获取所述一组视频帧中的每个视频帧的图片级特征,得到一组图片级特征;融合单元,将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征;确定单元,用于根据所述第一组融合特征,确定所述目标视频的视频标签。
[0008]可选的,所述第三获取单元,包括:检测模块,用于对每个视频帧进行目标检测,得到每个视频帧的目标检测结果;第一获取模块,用于根据每个视频帧的目标检测结果,获取
每个视频帧的目标局部图片;提取模块,用于对每个视频帧的目标局部图片进行特征提取,得到每个视频帧的图片级特征。
[0009]可选的,所述提取模块,用于执行如下操作:对每个视频帧执行以下操作,其中,在执行以下操作时,每个视频帧为当前视频帧:对当前视频帧进行目标检测,得到当前视频帧的目标检测结果,其中,在当前视频帧中检测到一组目标的情况下,当前视频帧的目标检测结果包括当前视频帧中一组目标所在的检测框,一组目标包括1个或至少2个目标。
[0010]可选的,所述检测模块,包括:预处理子模块,用于将当前视频帧进行预处理,得到第一预处理图片,其中,第一预处理图片的图片尺寸为第一预设尺寸;检测子模块,用于将第一预处理图片输入到目标检测模型,得到目标检测模型输出的当前视频帧的目标检测结果,其中,目标检测模型用于在第一预处理图片中检测预设类型的目标,预设类型包括1个或至少2个类型。
[0011]可选的,所述第一获取模块还用于执行如下操作:对每个视频帧执行以下操作,其中,在执行以下操作时,将每个视频帧依次作为当前视频帧:在当前视频帧的目标检测结果包括当前视频帧中检测到的一组目标所在的检测框的情况下,在一组目标所在的检测框中确定出面积满足预设条件的检测框,并在当前视频帧中获取面积满足预设条件的检测框所包含的目标局部图片。
[0012]可选的,所述第二获取单元还可以用于执行如下操作:对每个视频帧执行以下操作,其中,在执行以下操作时,每个视频帧为当前视频帧:将当前视频帧进行预处理,得到第二预处理图片,其中,第二预处理图片的图片尺寸为第二预设尺寸;将第二预处理图片输入到第一神经网络模型,得到第一神经网络模型输出的当前视频帧的视频级特征,其中,第一神经网络模型用于根据第二预处理图片提取当前视频帧的视频级特征。
[0013]可选的,所述融合单元,包括:第一拼接模块,用于在一组视频帧包括从目标视频中抽取的N个视频帧的情况下,将一组视频级特征和一组图片级特征进行特征拼接,得到第一组融合特征,其中,N为1或大于或等于2的自然数,一组视频级特征包括N
×
L
V
个特征,每个视频帧的视频级特征包括1
×
L
V
个特征,一组图片级特征包括N
×
L
I
个特征,每个视频帧的图片级特征包括1
×
L
I
个特征,第一组融合特征包括N
×
(L
V
+L
I
)个特征;第二拼接模块,用于在一组视频帧包括从目标视频中抽取的N个视频帧和目标视频的1个封面图片的情况下,将一组视频级特征和一组图片级特征进行特征拼接,得到第一组融合特征,其中,N为1或大于或等于2的自然数,一组视频级特征包括(N+1)
×
L
V
个特征,每个视频帧的视频级特征包括1
×
L
V
个特征,一组图片级特征包括(N+1)
×
L
I
个特征,每个视频帧的图片级特征包括1
×
L
I
个特征,第一组融合特征包括(N+1)(L
V
+L
I
)个特征。
[0014]可选的,所述确定单元,包括:第一确定模块,用于将第一组融合特征输入到第二神经网络模型,得到第二神经网络模型输出的目标视频的视频标签,其中,第二神经网络模型用于根据第一组融合特征,在预设的第一组视频标签中确定出目标视频的视频标签;第二确定模块,用于对第一组融合特征进行局部聚类处理,得到第一全局特征,其中,第一全局特征包括的特征的数量为预设的第一数量;将第一全局特征输入到第三神经网络模型,得到第三神经网络模型输出的目标视频的视频标签,其中,第三神经网络模型用于根据第一全局特征,在预设的第二组视频标签中确定出目标视频的视频标签。
[0015]可选的,所述确定单元,还包括:第一聚类模块,用于对第一组融合特征进行局部
聚类处理,得到第一全局特征,其中,第一全局特征包括的特征的数量为预设的第一数量;第三拼接模块,用于将第一全局特征与目标标题特征进行拼接,得到第二全局特征,其中,目标标题特征是根据目标视频的标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频标签的确定方法,其特征在于,包括:在目标视频中获取一组视频帧;获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征;获取所述一组视频帧中的每个视频帧的图片级特征,得到一组图片级特征;将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征;根据所述第一组融合特征,确定所述目标视频的视频标签。2.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的图片级特征,得到第一组图片级特征,包括:对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果;根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片;对所述每个视频帧的目标局部图片进行特征提取,得到所述每个视频帧的图片级特征。3.根据权利要求2所述的方法,其特征在于,所述对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,将所述每个视频帧依次作为当前视频帧:对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,其中,在所述当前视频帧中检测到一组目标的情况下,所述当前视频帧的目标检测结果包括所述当前视频帧中所述一组目标所在的检测框,所述一组目标包括1个或至少2个目标。4.根据权利要求3所述的方法,其特征在于,所述对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,包括:将所述当前视频帧进行预处理,得到第一预处理图片,其中,所述第一预处理图片的图片尺寸为第一预设尺寸;将所述第一预处理图片输入到目标检测模型,得到所述目标检测模型输出的所述当前视频帧的目标检测结果,其中,所述目标检测模型用于在所述第一预处理图片中检测预设类型的目标,所述预设类型包括1个或至少2个类型。5.根据权利要求2所述的方法,其特征在于,所述根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:在所述当前视频帧的目标检测结果包括所述当前视频帧中检测到的一组目标所在的检测框的情况下,在所述一组目标所在的检测框中确定出面积满足预设条件的检测框,并在所述当前视频帧中获取所述面积满足预设条件的检测框所包含的所述目标局部图片。6.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:将所述当前视频帧进行预处理,得到第二预处理图片,其中,所述第二预处理图片的图片尺寸为第二预设尺寸;
将所述第二预处理图片输入到第一神经网络模型,得到所述第一神经网络模型输出的所述当前视频帧的视频级特征,其中,所述第一神经网络模型用于根据所述第二预处理图片提取所述当前视频帧的视频级特征。7.根据权利要求1所述的方法,其特征在于,所述将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征,包括:在所述一组视频帧包括从所述目标视频中抽取的N个视频帧的情况下,将所述一组视频级特征和所述一组图片级特征进行特征拼接,得到所述第一组融合特征,其中,N为1或大于或等于2的自然数,所述一组视频级特征包括N
×
L
V
个特征,所述每个视频帧的视频级特征包括1
×
L
V
个特征,所述一组图片级特征包括N
×
L
I
个特征,所述每个视频帧的图片级特征包括1
×
L
I
个特征,所述第一组融合特征包括N
×
(L
V
+L
I
)个特征。8.根据权利要求1所述的方法,其特征在于,所述将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征,包括:在所述一组视频帧包括从所述目标视频中抽取的N个视频帧和所述目标视频的1个封面图片的情况下,将所述一组视频级特征和所述一组图片级特征...

【专利技术属性】
技术研发人员:袁宇辰郑茂
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1