模型生成方法、视频分类方法、装置、终端及存储介质制造方法及图纸

技术编号：21034520 阅读：26 留言：0更新日期：2019-05-04 05:30

本发明专利技术实施例提供了一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质，所述视频分类方法包括：获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。本发明专利技术实施例中，基于学习好的视频分类模型可以综合利用音频、图像和文本特征来识别待分类视频，扩大视频识别的标签的范围，从而提高了视频分类的准确性和整体性能。

全部详细技术资料下载

【技术实现步骤摘要】
模型生成方法、视频分类方法、装置、终端及存储介质
本专利技术涉及视频分类
，特别是涉及一种模型生成方法、视频分类方法、装置、终端及计算机可读存储介质。
技术介绍
随着视频文件的大量增加，人们需要观看视频文件前都会按照视频文件的类别进行初步筛选，然后从对应类别的视频文件中去选择感兴趣的视频文件观看，这样就需要对视频文件进行有效的分类，以使视频文件在合适的类别中呈现。现有的视频文件分类时，需要先设置视频文件的类别标签，然后，根据该类别标签，将其分到对应的视频类别中，但是，目前视频文件的类别标签设置可能不准确或不全面，比如，目前对视频文件的类别标签都要满足视觉可识别，也就是使人们仅通过观察视频内容就能识别出标签来，而对于视觉不可识别且有用的标签却没有设置，从而导致视频文件分类不准确。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种模型生成方法和视频分类方法，以解决现有技术中由于视频文件的类别标签设置可能不准确或不全面，导致视频文件分类不准确的技术问题。相应的，本专利技术实施例还提供了一种模型生成装置、视频分类装置、终端及计算机可读存储介质，用以保证上述方法的实现及应用。为了解决上述问题，本专利技术是通过如下技术方案实现的：第一方面提供一种模型生成方法，包括：获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；将所述多个分类标签的概率预测向量及真值标签向...

【技术保护点】
1.一种模型生成方法，其特征在于，包括：获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。

【技术特征摘要】
1.一种模型生成方法，其特征在于，包括：获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。2.根据权利要求1所述的方法，其特征在于，将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量包括：将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量。3.根据权利要求2所述的方法，其特征在于，所述对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量，包括：对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量；将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量。4.根据权利要求1所述的方法，其特征在于，所述获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征，包括：对多个待分类视频文件中的每个待分类视频文件分别进行采样，得到每个待分类视频文件的多个音频片段和多张图像；提取所述多个音频片中每个音频片段的音频原始特征，并将多个音频原始特征聚合成一个音频聚合特征；提取多张图像中的每张图像的图像原始特征，并将多个图像原始特征聚合成一个图像聚合特征；从每个待分类视频文件的文本描述中提取文本特征。5.根据权利要求4所述的方法，其特征在于，所述方法还包括：在多个音频原始特征聚合前，对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个音频原始特征；对量化后的每个音频原始特征进行反量化处理，得到反量化后的每个音频原始特征；在多个图像原始特征聚合前，对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理，得到量化后每个图像原始特征；对量化后的每个图像原始特征进行反量化处理，得到反量化后的每个图像原始特征；所述将多个音频原始特征聚合成一个音频聚合特征，具体包括：将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征；所述将多个图像原始特征聚合成一个图像聚合特征，具体包括：将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。6.根据权利要求2所述的方法，其特征在于，所述将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量，包括：将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理，得到归一化处理后的音频向量、图像向量和文本向量。7.根据权利要求2所述的方法，其特征在于，所述将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量，包括：将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量；其中，所述音频向量、图像向量和文本向量之间任意首尾相连拼接，且，对每个待分类视频保持同样的首尾相连拼接顺序。8.根据权利要求3所述的方法，其特征在于，所述对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量，包括：将所述降维处理后的第二向量输入第二全连接层进行降维处理，并将降维处理后的向量进行层归一化和整流线性处理，得到处理后的向量；将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理，并将处理结果进行层归一化和双弯曲函数sigmoid激活，得到激活后的向量；将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量，并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量。9.根据权利要求3所述的方法，其特征在于，将所述第三向量通过混合专家层，得到多个分类标签的第一概率预测向量，包括：将所述第三向量分别输入到第一组全连接层和第二组全连接层，得到对应的第四向量和第五向量，其中，所述第一组全连接层称为专家层，所述第二组全连接层称为门控层；对所述第一组全连接层输出的第四向量采用双弯曲sigmoid函数进行激活，得到激活后的专家层的向量；对所述第二组全连接层输出的第五向量采用软最大化softmax函数进行激活，得到激活后的门控层的向量；将激活后的所述门控层的向量逐点乘以激活后的专家层的向量，得到多个专家向量；对所述多个专家向量求和，得到多个分类标签的第一概率预测向量，所述多个分类标签的第一概率预测向量作为所述混合专家层的输出。10.根据权利要求3所述的方法，其特征在于，所述将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量，包括：将所述多个分类标签的第一概率预测向量输入第四全连接层进行降维处理，得到降维处理后的多个分类标签的概率预测向量；将所述降维处理后的多个分类标签的概率预测向量进行层归一化和整流线性处理，得到处理后的多个分类标签的概率预测向量；将处理后的多个分类标签的概率预测向量输入到维度和所述混合专家层输出的多个分类标签的概率预测向量相同的第五全连接层进行处理，并对输出进行层归一化和sigmoid激活，得到激活后的多个分类标签的概率预测向量；将激活后的所述多个分类标签的概率预测向量逐点乘以所述混合专家层输出得到的多个分类标签的概率预测向量，并将得到的多个分类标签的第二概率预测向量作为经过第二瓶颈门控处理后输出的多个分类标签的概率预测向量。11.一种视频分类方法，其特征在于，包括：获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；将所述音频聚合特征、图像聚合特征和文本特征输入到预先生成的视频分类模型进行分类，得到多个分类标签的概率预测向量；对所述多个分类标签的概率预测向量中的每个元素按照从高到低进行排序；选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签。12.根据权利要求11所述的方法，其特征在于，在选取排名靠前的至少一个元素编号对应的标签之前，所述方法还包括：判断排名靠前的至少一个元素的值是否大于置信度阈值；如果大于，则执行选取排名靠前的至少一个元素编号对应的标签，以作为所述待分类视频文件的分类标签的步骤。13.根据权利要求11或12所述的方法，其特征在于，所述获取待分类视频文件的音频聚合特征、图像聚合特征和文本特征；包括：对待分类视频文件进行采样，得到多个音频片段和多张图像；提取所述多个音频片中每个音频片段的音频原始特征，并将多个音频原始特征聚合成一个音频聚合特征；提取多张图像中的每张图像的图像原始特征，并将多张图像的图像原始特征聚合成一个图像聚合特征；从所述待分类视频文件的文本描述中提取文本特征。14.根据权利要求11或12所述的方法，其特征在于，所述将所述音频聚合特征、图像聚合特征和文本特征输入到视频分类模型进行分类，得到多个分类标签的概率预测向量包括：将所述音频聚合特征、图像聚合特征和文本特征分别进行归一化处理，得到对应的音频向量、图像向量和文本向量；将得到的所述音频向量、图像向量和文本向量进行拼接，得到拼接后的第一向量；将所述拼接后的第一向量输入第一全连接层进行降维处理，得到降维处理后的第二向量；对所述降维处理后的第二向量进行第一瓶颈门控处理，得到第三向量；将所述第三向量通过混合专家层进行处理，得到多个分类标签的第一概率预测向量；将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理，得到多个分类标签的第二概率预测向量。15.一种模型生成装置，其特征在于，包括：获取模块，用于获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征；融合模块，用于将所述每个所述待分类视频文件的音频聚合特征、图像聚合特征和文本特征进行融合，得到融合后的向量；处理模块，用于对所述融合后的向量进行瓶颈门控和混合专家层处理，得到多个分类标签的概率预测向量；计算模块，用于将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算，得到多个分类标签分类损失的计算结果；迭代学习模块，用于根据所述计算结果，利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习，得到视频分类模型。16.根据权利要求15所述的装置，其特征在于，所述融合模块包括：归一化处理模块，用...

【专利技术属性】
技术研发人员：梁大为，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人