【技术实现步骤摘要】
视频标签的确定方法和装置、存储介质及电子设备
[0001]本专利技术涉及数据处理
,具体而言,涉及一种视频标签的确定方法和装置、存储介质及电子设备。
技术介绍
[0002]随着网络技术的快速发展,多媒体的推广应用,各种视频源源不断地产生,视频等媒体数据已经成为大数据的主体,视频标签是视频内容的一种高度概括,是视频管理的重要依据。在视频推荐系统中,视频标签可用于计算视频相似度,进而基于用户喜好向用户推荐相似视频。针对大量视频如何自动生成相关的标签,将对满足用户的信息获取需求有重大意义。
[0003]现有技术方案大多聚焦于单独的视频多标签分类模型,如从视频中抽取部分关键帧图像,利用训练好的分类模型对每个关键帧图像进行分类得到每个关键帧图像的标签,根据关键帧对应的标签得到视频的标签。在视频背景变化复杂、或帧与帧之间跳动剧烈时,容易学到不正确的特征。以汽车标签识别为例,有些车型评测视频会经常在人物解说与车辆展示之间变化。当人物解说占据大多数时长时,所抽取的帧可能只有少数包含车辆,而大多数拍摄的都是人物。此时,单独的视频分类模型容易受到数据平衡性影响,会在占据大多数时长的人物镜头上学习车型的特征,导致模型学到错误的特征,从而使得视频分类模型输出的视频标签不准确。
[0004]针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
[0005]本专利技术实施例提供了一种视频标签的确定方法和装置、存储介质及电子设备,以至少解决现有技术中,确定的视频标签准确性较低的技术问题。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种视频标签的确定方法,其特征在于,包括:在目标视频中获取一组视频帧;获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征;获取所述一组视频帧中的每个视频帧的图片级特征,得到一组图片级特征;将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征;根据所述第一组融合特征,确定所述目标视频的视频标签。2.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的图片级特征,得到第一组图片级特征,包括:对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果;根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片;对所述每个视频帧的目标局部图片进行特征提取,得到所述每个视频帧的图片级特征。3.根据权利要求2所述的方法,其特征在于,所述对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,将所述每个视频帧依次作为当前视频帧:对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,其中,在所述当前视频帧中检测到一组目标的情况下,所述当前视频帧的目标检测结果包括所述当前视频帧中所述一组目标所在的检测框,所述一组目标包括1个或至少2个目标。4.根据权利要求3所述的方法,其特征在于,所述对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,包括:将所述当前视频帧进行预处理,得到第一预处理图片,其中,所述第一预处理图片的图片尺寸为第一预设尺寸;将所述第一预处理图片输入到目标检测模型,得到所述目标检测模型输出的所述当前视频帧的目标检测结果,其中,所述目标检测模型用于在所述第一预处理图片中检测预设类型的目标,所述预设类型包括1个或至少2个类型。5.根据权利要求2所述的方法,其特征在于,所述根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:在所述当前视频帧的目标检测结果包括所述当前视频帧中检测到的一组目标所在的检测框的情况下,在所述一组目标所在的检测框中确定出面积满足预设条件的检测框,并在所述当前视频帧中获取所述面积满足预设条件的检测框所包含的所述目标局部图片。6.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:将所述当前视频帧进行预处理,得到第二预处理图片,其中,所述第二预处理图片的图片尺寸为第二预设尺寸;
将所述第二预处理图片输入到第一神经网络模型,得到所述第一神经网络模型输出的所述当前视频帧的视频级特征,其中,所述第一神经网络模型用于根据所述第二预处理图片提取所述当前视频帧的视频级特征。7.根据权利要求1所述的方法,其特征在于,所述将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征,包括:在所述一组视频帧包括从所述目标视频中抽取的N个视频帧的情况下,将所述一组视频级特征和所述一组图片级特征进行特征拼接,得到所述第一组融合特征,其中,N为1或大于或等于2的自然数,所述一组视频级特征包括N
×
L
V
个特征,所述每个视频帧的视频级特征包括1
×
L
V
个特征,所述一组图片级特征包括N
×
L
I
个特征,所述每个视频帧的图片级特征包括1
×
L
I
个特征,所述第一组融合特征包括N
×
(L
V
+L
I
)个特征。8.根据权利要求1所述的方法,其特征在于,所述将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征,包括:在所述一组视频帧包括从所述目标视频中抽取的N个视频帧和所述目标视频的1个封面图片的情况下,将所述一组视频级特征和所述一组图片级特征...
【专利技术属性】
技术研发人员:袁宇辰,郑茂,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。