模型生成方法、视频分类方法、装置、终端及存储介质制造方法及图纸

技术编号:21034520 阅读:26 留言:0更新日期:2019-05-04 05:30
本发明专利技术实施例提供了一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质,所述视频分类方法包括:获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。本发明专利技术实施例中,基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频,扩大视频识别的标签的范围,从而提高了视频分类的准确性和整体性能。

【技术实现步骤摘要】
模型生成方法、视频分类方法、装置、终端及存储介质
本专利技术涉及视频分类
,特别是涉及一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质。
技术介绍
随着视频文件的大量增加,人们需要观看视频文件前都会按照视频文件的类别进行初步筛选,然后从对应类别的视频文件中去选择感兴趣的视频文件观看,这样就需要对视频文件进行有效的分类,以使视频文件在合适的类别中呈现。现有的视频文件分类时,需要先设置视频文件的类别标签,然后,根据该类别标签,将其分到对应的视频类别中,但是,目前视频文件的类别标签设置可能不准确或不全面,比如,目前对视频文件的类别标签都要满足视觉可识别,也就是使人们仅通过观察视频内容就能识别出标签来,而对于视觉不可识别且有用的标签却没有设置,从而导致视频文件分类不准确。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种模型生成方法和视频分类方法,以解决现有技术中由于视频文件的类别标签设置可能不准确或不全面,导致视频文件分类不准确的技术问题。相应的,本专利技术实施例还提供了一种模型生成装置、视频分类装置、终端及计算机可读存储介质,用以保证上述方法的实现及应用。为了解决上述问题,本专利技术是通过如下技术方案实现的:第一方面提供一种模型生成方法,包括:获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。第二方面提供一种视频分类方法,包括:获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。第三方面提供一种模型生成装置,包括:获取模块,用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;融合模块,用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;处理模块,用于对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;计算模块,用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;迭代学习模块,用于根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。第四方面提供一种视频分类装置,包括:第一获取模块,用于获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;分类模块,用于将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;排序模块,用于对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;选取模块,用于选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。第五方面提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的模型生成方法的步骤,或者如上述的视频分类方法的步骤。第六方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的模型生成方法中的步骤,或者如上述的视频分类方法的步骤。与现有技术相比,本专利技术实施例包括以下优点:本专利技术实施例中,对确定的多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征融合成一个向量,再后,对该融合后的向量进行瓶颈门控以及混合专家层处理,得到多个分类标签的概率预测向量;以及将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果,最后,根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。也就是说,本专利技术实施例中,采用上述过程对视频分类模型的参数进行学习,基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频,扩大视频识别的标签的范围,从而提高了视频分类的准确性和整体性能。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明图1是本专利技术实施例提供的一种模型生成方法的流程图;图2是本专利技术实施例中提供的一种向量通过第一瓶颈门控处理的示意图;图3是本专利技术实施例提供的一种视频分类方法的流程图;图4是本专利技术实施例提供的一种视频分类方法的另一流程图图5是本专利技术实施例提供的一种应用实例的示意图;图6是本专利技术实施例提供的一种模型生成装置的结构示意图;图7是本专利技术实施例提供的第一瓶颈门控处理模块的结构示意图;图8是本专利技术实施例提供的一种混合专家层处理模块的结构示意图图9是本专利技术实施例提供的一种视频分类装置的结构示意图;图10是本专利技术实施例提供的一种视频分类装置的另一结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。请参阅图1,为本专利技术实施例提供的一种模型生成方法的流程图,具体可以包括如下步骤:步骤101:获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;其中,具体的获取过程包括:1)对多个待分类视频文件中的每个待分类视频文件分别进行采样,得到每个待分类视频文件的多个音频片段和多张图像;该步骤中,对每个待分类视频文件的音频和图像的采用过程类似,其不同之处,在于输入的神经网络不同,图像输入的是二维或三维的卷积神经网络;而音频输入的是音频卷积神经网络。其中,对图像的采样以每间隔1秒采样一张图像,累计采样300张图像为例,然后,对每一张图像提取inceptionv3的最后一个隐层的输出作为该图像的图像原始特征;其中,采取的每个待分类视频中的图像是通过二维或三维的卷积神经网络(CNN,ConvolutionalNeuralNetworks)来执行的,二维是针对单张图像的,三维是针对一定长度的图像序列的。而卷积神经网络的输入通常具有固定的大小,比如224×224,那么对于输入卷积神经网络的一张图像,可以将其保持纵横比并将最小边长缩放到256,然后,随机截取该图像的224×224的图像块作为卷积神经网络的输入,并进行前馈操作(其前馈操作主要包括若干个卷积层和池化层,卷积层用来提取图像的特征,池化层用来降低图像的分辨率),然后,取出最后一个隐藏层,也就是分类器层紧邻的前一层作为输出。同理,对音频的采样也是以间隔1秒进行采样一个音频片段,累计采样了300个音频片段为例,然后,将每个音频片段输入音频CNN,同样取最后一个隐层的输出作为多个音频片段的音频本文档来自技高网...

【技术保护点】
1.一种模型生成方法,其特征在于,包括:获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。

【技术特征摘要】
1.一种模型生成方法,其特征在于,包括:获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。2.根据权利要求1所述的方法,其特征在于,将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量包括:将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量。3.根据权利要求2所述的方法,其特征在于,所述对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量,包括:对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量;将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。4.根据权利要求1所述的方法,其特征在于,所述获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征,包括:对多个待分类视频文件中的每个待分类视频文件分别进行采样,得到每个待分类视频文件的多个音频片段和多张图像;提取所述多个音频片中每个音频片段的音频原始特征,并将多个音频原始特征聚合成一个音频聚合特征;提取多张图像中的每张图像的图像原始特征,并将多个图像原始特征聚合成一个图像聚合特征;从每个待分类视频文件的文本描述中提取文本特征。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在多个音频原始特征聚合前,对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个音频原始特征;对量化后的每个音频原始特征进行反量化处理,得到反量化后的每个音频原始特征;在多个图像原始特征聚合前,对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像原始特征;对量化后的每个图像原始特征进行反量化处理,得到反量化后的每个图像原始特征;所述将多个音频原始特征聚合成一个音频聚合特征,具体包括:将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征;所述将多个图像原始特征聚合成一个图像聚合特征,具体包括:将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。6.根据权利要求2所述的方法,其特征在于,所述将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量,包括:将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理,得到归一化处理后的音频向量、图像向量和文本向量。7.根据权利要求2所述的方法,其特征在于,所述将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量,包括:将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所述音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分类视频保持同样的首尾相连拼接顺序。8.根据权利要求3所述的方法,其特征在于,所述对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量,包括:将所述降维处理后的第二向量输入第二全连接层进行降维处理,并将降维处理后的向量进行层归一化和整流线性处理,得到处理后的向量;将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理,并将处理结果进行层归一化和双弯曲函数sigmoid激活,得到激活后的向量;将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量,并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。9.根据权利要求3所述的方法,其特征在于,将所述第三向量通过混合专家层,得到多个分类标签的第一概率预测向量,包括:将所述第三向量分别输入到第一组全连接层和第二组全连接层,得到对应的第四向量和第五向量,其中,所述第一组全连接层称为专家层,所述第二组全连接层称为门控层;对所述第一组全连接层输出的第四向量采用双弯曲sigmoid函数进行激活,得到激活后的专家层的向量;对所述第二组全连接层输出的第五向量采用软最大化softmax函数进行激活,得到激活后的门控层的向量;将激活后的所述门控层的向量逐点乘以激活后的专家层的向量,得到多个专家向量;对所述多个专家向量求和,得到多个分类标签的第一概率预测向量,所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。10.根据权利要求3所述的方法,其特征在于,所述将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量,包括:将所述多个分类标签的第一概率预测向量输入第四全连接层进行降维处理,得到降维处理后的多个分类标签的概率预测向量;将所述降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理,得到处理后的多个分类标签的概率预测向量;将处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理,并对输出进行层归一化和sigmoid激活,得到激活后的多个分类标签的概率预测向量;将激活后的所述多个分类标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的概率预测向量,并将得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的概率预测向量。11.一种视频分类方法,其特征在于,包括:获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类,得到多个分类标签的概率预测向量;对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序;选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签。12.根据权利要求11所述的方法,其特征在于,在选取排名靠前的至少一个元素编号对应的标签之前,所述方法还包括:判断排名靠前的至少一个元素的值是否大于置信度阈值;如果大于,则执行选取排名靠前的至少一个元素编号对应的标签,以作为所述待分类视频文件的分类标签的步骤。13.根据权利要求11或12所述的方法,其特征在于,所述获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征;包括:对待分类视频文件进行采样,得到多个音频片段和多张图像;提取所述多个音频片中每个音频片段的音频原始特征,并将多个音频原始特征聚合成一个音频聚合特征;提取多张图像中的每张图像的图像原始特征,并将多张图像的图像原始特征聚合成一个图像聚合特征;从所述待分类视频文件的文本描述中提取文本特征。14.根据权利要求11或12所述的方法,其特征在于,所述将所述音频聚合特征、图像聚合特征和文本特征输入到视频分类模型进行分类,得到多个分类标签的概率预测向量包括:将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;将得到的所述音频向量、图像向量和文本向量进行拼接,得到拼接后的第一向量;将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量;对所述降维处理后的第二向量进行第一瓶颈门控处理,得到第三向量;将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量。15.一种模型生成装置,其特征在于,包括:获取模块,用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;融合模块,用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合,得到融合后的向量;处理模块,用于对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量;计算模块,用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;迭代学习模块,用于根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。16.根据权利要求15所述的装置,其特征在于,所述融合模块包括:归一化处理模块,用...

【专利技术属性】
技术研发人员:梁大为
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1