视频分类方法、装置、计算机以及可读存储介质制造方法及图纸

技术编号:23431797 阅读:19 留言:0更新日期:2020-02-25 13:09
本申请实施例公开了一种视频分类方法,包括:从目标视频中获取关键帧图像;将该关键帧图像输入图像搜索引擎,得到该关键帧图像的描述信息,根据描述信息确定关键帧图像的关键词组;获取关键词组对应的文本内容特征;根据文本内容特征确定该目标视频的视频类型标签。采用本申请,可以基于组成目标视频的多个帧图像中的关键帧图像,在图像搜索引擎中对应的描述信息确定目标视频的文本内容特征,以得到该目标视频的视频类型标签,从而提高视频分类的效率。

Video classification method, device, computer and readable storage medium

【技术实现步骤摘要】
视频分类方法、装置、计算机以及可读存储介质
本申请涉及计算
,尤其涉及一种视频分类方法、装置、计算机以及可读存储介质。
技术介绍
随着视频种类的日益丰富及视频数量的日益增多,人们可以进行观看的视频及所使用的视频播放应用也越来越多样化,而每个人所喜欢的视频类型各不相同,如果在大量的视频中去查找自己想看的视频,会耗费很多时间,甚至可能会失去观看视频的兴趣,因此,对于视频播放应用来说,会将该视频播放应用中的大量视频进行分类,使得人们查找感兴趣的视频时更加简单方便,也可以根据每个用户的喜好进行视频推送,但是由于视频的日益增多,通过人工进行视频分类会浪费大量的时间和精力,故而高效快捷地进行视频分类就显得十分重要。
技术实现思路
本申请实施例提供了一种视频分类方法和装置,可以提高视频分类的效率。本申请实施例第一方面提供了一种视频分类方法,包括:从目标视频中获取关键帧图像;将所述关键帧图像输入图像搜索引擎,得到所述关键帧图像的描述信息,根据所述描述信息确定所述关键帧图像的关键词组;获取所述关键词组对应的文本内容特征;根据所述文本内容特征确定所述目标视频的视频类型标签。其中,所述方法还包括:根据所述目标视频中每帧图像的内容,获取所述目标视频对应的视频内容特征;则所述根据所述文本内容特征确定所述目标视频的视频类型标签,包括:将所述文本内容特征与所述视频内容特征进行拼接,得到第一融合特征;将所述第一融合特征输入分类模型中,得到所述目标视频的视频类型标签。其中,所述根据所述目标视频中每帧图像的内容,获取所述目标视频对应的视频内容特征,包括:获取所述目标视频中的至少一个图像对,每个图像对均包含所述目标视频中相邻的两帧图像;获取所述至少一个图像对中的两帧图像间的光流图,将所述至少一个图像对对应的光流图组成所述目标视频的光流图序列;将所述目标视频的帧图像序列及所述光流图序列输入视频分类模型,得到所述目标视频对应的视频内容特征,所述帧图像序列由组成所述目标视频的各个帧图像依次排列得到。其中,所述方法还包括:获取所述目标视频的音频信息,将所述音频信息输入语音分类模型,得到所述音频信息对应的语音内容特征;所述根据所述文本内容特征确定所述目标视频的视频类型标签,包括:将所述文本内容特征与所述语音内容特征进行拼接,得到第二融合特征;将所述第二融合特征输入分类模型中,得到所述目标视频的视频类型标签。其中,所述方法还包括:识别所述关键帧图像中的图像文字,并获取所述关键帧图像对应的字幕信息;所述根据所述描述信息确定所述关键帧图像的关键词组,包括:根据所述描述信息、所述图像文字及所述字幕信息确定所述关键帧图像的关键词组。其中,所述根据所述描述信息、所述图像文字及所述字幕信息确定所述关键帧图像的关键词组,包括:将所述描述信息中的词组、所述图像文字中的词组以及所述字幕信息中的词组添加到词组集合;根据所述词组集合中每个词组的出现次数以及类型权重,确定所述词组集合中每个词组对应的评估值;所述类型权重包括所述描述信息对应的权重、所述图像文字对应的权重以及所述字幕信息对应的权重;根据所述评估值,对所述词组集合中每个词组进行排序,根据排序结果从所述词组集合中确定所述关键帧图像的关键词组。其中,所述从目标视频中获取关键帧图像,包括:获取组成所述目标视频的多个帧图像,将所述多个帧图像输入关键帧确定模型中的特征提取层,得到每个帧图像的图像特征;将所述每个帧图像的图像特征输入所述关键帧确定模型中的关键值确定层,在所述关键值确定层中基于注意力机制确定所述每个帧图像的关键值;根据所述每个帧图像的关键值,确定所述目标视频中的所述关键帧图像。其中,所述在所述关键值确定层中基于注意力机制确定所述每个帧图像的关键值,包括:在所述关键值确定层中基于所述注意力机制,确定所述多个帧图像中第i个帧图像的图像特征与对照图像的图像特征间的关联度,根据所述第i个帧图像的图像特征与所述对照图像的图像特征间的关联度得到所述第i个帧图像的关键值;所述对照图像为所述组成所述目标视频的多个帧图像中除所述第i个帧图像以外的帧图像,i为正整数,i不大于所述多个帧图像的数量;当所述第i个帧图像为所述多个帧图像中的最后一个帧图像时,得到所述每个帧图像的关键值。其中,所述根据所述描述信息确定所述关键帧图像的关键词组,包括:统计所述描述信息包含的词组中每个词组的出现次数,将所述描述信息中出现次数大于统计次数阈值的词组确定为所述关键帧图像的关键词组。其中,所述获取所述关键词组对应的文本内容特征,包括:将所述关键词组输入文本分类模型中,提取所述关键词组对应的初始文本特征;将所述初始文本特征与所述文本分类模型中的多个待匹配类型特征进行匹配,得到匹配值;将具有最大匹配值的待匹配类型特征确定为所述关键词组对应的文本内容特征。其中,所述将所述文本内容特征与所述语音内容特征进行拼接,得到第二融合特征,包括:在所述文本内容特征中的第一指定位置添加默认特征值,得到第一指定长度的文本内容特征;在所述语音内容特征中的第二指定位置添加所述默认特征值,得到第二指定长度的语音内容特征;将所述第一指定长度的文本内容特征及所述第二指定长度的语音内容特征进行拼接,得到所述第二融合特征;所述将所述第二融合特征输入分类模型中,得到所述目标视频的视频类型标签,包括:将所述第二融合特征输入所述分类模型中,基于所述分类模型中的分类权重矩阵,得到所述目标视频的视频类型标签。其中,所述方法还包括:基于所述目标视频的视频类型标签,将所述目标视频添加至所述视频类型标签对应的视频分类中;或者,将所述目标视频推送到目标终端,所述目标终端为标记了所述视频类型标签的终端。本申请实施例第二方面提供了一种视频分类装置,所述装置包括:第一获取模块,用于从目标视频中获取关键帧图像;第一确定模块,用于将所述关键帧图像输入图像搜索引擎,得到所述关键帧图像的描述信息,根据所述描述信息确定所述关键帧图像的关键词组;第二获取模块,用于获取所述关键词组对应的文本内容特征;第二确定模块,用于根据所述文本内容特征确定所述目标视频的视频类型标签。其中,所述装置还包括:第三获取模块,用于根据所述目标视频中每帧图像的内容,获取所述目标视频对应的视频内容特征;则所述第二确定模块,包括:拼接单元,用于将所述文本内容特征与所述视频内容特征进行拼接,得到第一融合特征;第一训练单元,用于将所述第一融合特征输入分类模型中,得到所述目标视频的视频类型标签。其中,所述第三获取模块,包括:第一获取单元,用于获取所述目标视频中的至少一个图像对,每个图像对均包含所述目本文档来自技高网...

【技术保护点】
1.一种视频分类方法,其特征在于,所述方法包括:/n从目标视频中获取关键帧图像;/n将所述关键帧图像输入图像搜索引擎,得到所述关键帧图像的描述信息,根据所述描述信息确定所述关键帧图像的关键词组;/n获取所述关键词组对应的文本内容特征;/n根据所述文本内容特征确定所述目标视频的视频类型标签。/n

【技术特征摘要】
1.一种视频分类方法,其特征在于,所述方法包括:
从目标视频中获取关键帧图像;
将所述关键帧图像输入图像搜索引擎,得到所述关键帧图像的描述信息,根据所述描述信息确定所述关键帧图像的关键词组;
获取所述关键词组对应的文本内容特征;
根据所述文本内容特征确定所述目标视频的视频类型标签。


2.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标视频中每帧图像的内容,获取所述目标视频对应的视频内容特征;
则所述根据所述文本内容特征确定所述目标视频的视频类型标签,包括:
将所述文本内容特征与所述视频内容特征进行拼接,得到第一融合特征;
将所述第一融合特征输入分类模型中,得到所述目标视频的视频类型标签。


3.如权利要求2所述的方法,其特征在于,所述根据所述目标视频中每帧图像的内容,获取所述目标视频对应的视频内容特征,包括:
获取所述目标视频中的至少一个图像对,每个图像对均包含所述目标视频中相邻的两帧图像;
获取所述至少一个图像对中的两帧图像间的光流图,将所述至少一个图像对对应的光流图组成所述目标视频的光流图序列;
将所述目标视频的帧图像序列及所述光流图序列输入视频分类模型,得到所述目标视频对应的视频内容特征,所述帧图像序列由组成所述目标视频的各个帧图像依次排列得到。


4.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述目标视频的音频信息,将所述音频信息输入语音分类模型,得到所述音频信息对应的语音内容特征;
所述根据所述文本内容特征确定所述目标视频的视频类型标签,包括:
将所述文本内容特征与所述语音内容特征进行拼接,得到第二融合特征;
将所述第二融合特征输入分类模型中,得到所述目标视频的视频类型标签。


5.如权利要求1所述的方法,其特征在于,所述方法还包括:
识别所述关键帧图像中的图像文字,并获取所述关键帧图像对应的字幕信息;
所述根据所述描述信息确定所述关键帧图像的关键词组,包括:
根据所述描述信息、所述图像文字及所述字幕信息确定所述关键帧图像的关键词组。


6.如权利要求5所述的方法,其特征在于,所述根据所述描述信息、所述图像文字及所述字幕信息确定所述关键帧图像的关键词组,包括:
将所述描述信息中的词组、所述图像文字中的词组以及所述字幕信息中的词组添加到词组集合;
根据所述词组集合中每个词组的出现次数以及类型权重,确定所述词组集合中每个词组对应的评估值;所述类型权重包括所述描述信息对应的权重、所述图像文字对应的权重以及所述字幕信息对应的权重;
根据所述评估值,对所述词组集合中每个词组进行排序,根据排序结果从所述词组集合中确定所述关键帧图像的关键词组。


7.如权利要求1所述的方法,其特征在于,所述从目标视频中获取关键帧图像,包括:
获取组成所述目标视频的多个帧图像,将所述多个帧图像输入关键帧确定模型中的特征提取层,得到每个帧图像的图像特征;
将所述每个帧图像的图像特征输入所述关键帧确定模型中的关键值确定层,在所述关键值确定层中基于注意力机制确定所述每个帧图像的关键值;
根据所述每个帧图像的关键值,确定所述目标视频中的所述关键帧图像。


8.如权利要求7所述的方...

【专利技术属性】
技术研发人员:王瑞琛王晓利
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1