视频分类方法、装置、设备及介质制造方法及图纸

技术编号:33351927 阅读:36 留言:0更新日期:2022-05-08 09:59
本申请公开了一种视频分类方法、装置、设备及介质,涉及机器学习领域。该方法包括:获取目标视频的n种多模态特征,n种多模态特征包括图像特征、音频特征和文本特征中的至少两种,n为大于1的正整数;融合n种多模态特征,得到融合特征;根据m种分类粒度对融合特征进行分类,得到目标视频的整体分类特征和m个粒度分类特征,m种分类粒度用于表示在目标维度下m种相互关联的用于分类的粒度,m个粒度分类特征用于表示与m种分类粒度对应的分类特征;根据整体分类特征和m个粒度分类特征,得到目标视频的m级分类标签,m级分类标签是按照m种分类粒度排列的视频标签。本申请可以融合多模态的信息,使得视频标签更为准确。使得视频标签更为准确。使得视频标签更为准确。

【技术实现步骤摘要】
视频分类方法、装置、设备及介质


[0001]本申请涉及机器学习领域,特别涉及一种视频分类方法、装置、设备及介质。

技术介绍

[0002]在视频被上传到视频平台后,会给视频加上分类标签,比如,一个视频的分类标签是科技

智能手机

国产手机。
[0003]相关技术会预先训练一个用于视频分类的机器学习模型。从目标视频中抽取出图像特征,将图像特征输入到机器学习模型中,机器学习模型会对图像特征进行数据处理,输出目标视频的分类标签。
[0004]但是相关技术用到了目标视频中与图像特征相关的信息,最终输出的分类标签不准确。

技术实现思路

[0005]本申请实施例提供了一种视频分类方法、装置、设备及介质,该方法可以结合目标视频中的多模态特征,从多个模态来确定目标视频的分类标签,所述技术方案如下:
[0006]根据本申请的一个方面,提供了一种视频分类方法,该方法包括:
[0007]获取目标视频的n种多模态特征,所述n种多模态特征包括图像特征、音频特征和文本特征中的至少两种,n为本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频分类方法,其特征在于,所述方法包括:获取目标视频的n种多模态特征,所述n种多模态特征包括图像特征、音频特征和文本特征中的至少两种,n为大于1的正整数;融合所述n种多模态特征,得到融合特征;根据m种分类粒度对所述融合特征进行分类,得到所述目标视频的整体分类特征和m个粒度分类特征,所述m种分类粒度用于表示在目标维度下m种相互关联的用于分类的粒度,所述m个粒度分类特征用于表示与所述m种分类粒度对应的分类特征,m为正整数;根据所述整体分类特征和所述m个粒度分类特征,得到所述目标视频的m级分类标签,所述m级分类标签是按照所述m种分类粒度排列的视频标签。2.根据权利要求1所述的方法,其特征在于,所述根据所述整体分类特征和所述m个粒度分类特征,得到所述目标视频的m级分类标签,包括:将所述整体分类特征分别和所述m个粒度分类特征进行结合,得到m个目标分类特征;根据所述m个目标分类特征确定所述目标视频的所述m级分类标签。3.根据权利要求2所述的方法,其特征在于,所述将所述整体分类特征分别和所述m个粒度分类特征进行结合,得到m个目标分类特征,包括:对于所述m个粒度分类特征中的第i个粒度分类特征,确定与所述第i个粒度分类特征相邻的邻居粒度分类特征,i为小于m+1的正整数,i的初始值为1;调用与所述第i个粒度分类特征对应的标签分类器,对所述整体分类特征和所述邻居粒度分类特征进行数据处理,输出与所述第i个粒度分类特征对应的第i个目标分类特征;将所述i更新为i+1后,重复上述两个步骤,直至得到所述m个目标分类特征。4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据n种分类粒度对所述融合特征进行分类,得到所述目标视频的整体分类特征和n个粒度分类特征,包括:调用级联的m个标签分类器,对所述融合特征进行数据处理,得到所述m个粒度分类特征;按照所述m个标签分类器的级联顺序,融合所述m个标签分类器的隐藏层特征,得到所述整体分类特征。5.根据权利要求1至3任一项所述的方法,其特征在于,所述融合所述n种多模态特征,得到融合特征,包括:基于注意力机制,确定与所述n种多模态特征对应的n种权重;根据所述n种权重,对所述n种多模态特征进行加权计算,得到所述融合特征。6.根据权利要求5所述的方法,其特征在于,所述n种多模态特征包括图像特征、音频特征和文本特征;所述基于注意力机制,确定与所述n种多模态特征对应的n种权重,包括:基于注意力机制,确定所述图像特征的图像权重,以及确定所述音频特征的音频权重,以及确定所述文本特征的文本权重;所述根据所述n种权重,对所述n种多模态特征进行加权计算,得到所述融合特征,包括:根据所述图像权重、所述音频权重和所述文本权重,对所述图像特征、所述音频特征和所述文本特征进行加权计算,输出所述融合特征。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:对所述融合特征进行压缩处理和激活处理,输出中间融合特征;对所述中间融合特征进行校准处理,输出优化后的融合特征。8.根据权利要求1至3任一项所述的方法,其特征在于,所述n种多模态特征包括所述图像特征;所述方法还包括:从所述目标视频中抽取出目标视频帧;调用图像特征提取网络,对所述目标视频帧进行数据处理,输出所述目标视频帧的视频帧特征;融合所述视频帧特征,得到所述目标视频的所述图像特征。9.根据权利要求1至3任一项所述的方法,其特征在于,所述n种多模态特征包括所述音频特征;所述方法还包括:获取所述目标视频的梅尔频谱图;调用音频特征提取网络,对所述梅尔频谱图进行数据处理,输出所述目标视频的所述音频特征。10.根据权利要求1至3任一项所述的方法,其特征在于,所述n种多模态特征包括所述文本特征;所述方法还包括:提取所述目标视频中的文本内容;调用文本特征提取网络,对所述文本内容和所述目标视频的标题进行数据处理,输出所述目标视频的所述文本特征。11.一种视频分类模型的训练方法,其特征在于,所述视频分类模型包括特征提取网络层、特征融合网络层和分类网络层,所述方法包括:获取样本训练集,所述样本训练集包括样本视频和所述样本视频对应的真实标注;调用所述特征提取网络层,对所述样本视频进行数据处理,输出n个样本多模态特征,所述n种样本多模态特征包括样本图像特征、样本音频特征和样本文本特征中的至少两种,n为大于1的正整数;调用所述特征融合网络层,对...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1