小样本视频分类和分类模型训练方法及其装置制造方法及图纸

技术编号：34842689 阅读：23 留言：0更新日期：2022-09-08 07:40

本发明专利技术提供一种小样本视频分类和分类模型训练方法及其装置，涉及计算机视觉技术领域，所述分类方法包括：将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

全部详细技术资料下载

【技术实现步骤摘要】
小样本视频分类和分类模型训练方法及其装置

[0001]本专利技术涉及计算机视觉
，尤其涉及一种小样本视频分类和分类模型训练方法及其装置。

技术介绍

[0002]作为计算机视觉的一个重要研究领域，在每个类别给出少量示例的条件下，小样本视频分类方法将类别未知的视频分类为示例类别之一。通常将给出示例的类别称为支撑类别(Support Categories)，给出的示例称为支撑视频(Support Videos)，待分类视频称为查询视频(Query Videos)。小样本视频分类技术可以显著减少视频收集与标注的工作量，也可快速部署到新类别分类问题上而无需重新进行大规模训练。为了根据极其有限的示例对新视频进行正确分类，小样本视频分类通常一次输入一个任务(task)，任务由支撑视频和若干查询视频组成；输出该任务中所有查询视频的所属支撑类别。小样本视频分类方通常采用情节训练(Episodic Training)技术进行模型参数估计，该训练技术以大规模视频分类数据集为基础，将数据集按类别划分为三个子集，不同子集包含完全不同的类别，从各子集中抽样若干任务分别构成元训练集、元验证集和元测试集，这种训练方式保证了训练任务与测试任务的类别完全无重合，因此可以衡量小样本分类方法在新类别上的泛化能力。模型上，小样本视频分类方法根据支撑视频对查询视频进行分类，现有方法都可纳入匹配框架，即首先提取支撑视频和查询视频的特征，随后对查询视频和支撑视频的特征进行匹配(Matching)，各方法的区别主要在于特征提取方法以及匹配方法的不同。

【技术保护点】

【技术特征摘要】
1.一种小样本视频分类方法，其特征在于，包括：将小样本分类任务输入预先构建的收敛的压缩域长短时Cross
‑
Transformer模型，获取压缩域信息；基于所述压缩域信息，获取短时融合的帧特征；基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果。2.根据权利要求1所述的小样本视频分类方法，其特征在于，所述将小样本分类任务输入预先构建的收敛的压缩域长短时Cross
‑
Transformer模型，获取压缩域信息，包括：基于小样本分类任务，获取预测帧重要性值和图像群组重要性值；基于所述图像群组重要性值获取信息帧的RGB图像，且基于所述预测帧重要性值获取预测帧的运动向量；基于预处理的所述信息帧的RGB图像和所述预测帧的运动向量，获取压缩域信息。3.根据权利要求2所述的小样本视频分类方法，其特征在于，所述基于所述图像群组重要性值获取信息帧的RGB图像，且基于所述预测帧重要性值获取预测帧的运动向量，包括：基于图像群组重要性值，获取阶段图像群组，其中，所述阶段图像群组包括训练图像群组和测试图像群组，所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定，所述测试图像群组是基于图像群组重要性值最高值确定；解码所述阶段图像群组的信息帧的RGB图像；基于所述阶段图像群组，获取阶段预测帧，其中，所述阶段预测帧包括训练预测帧和测试预测帧，训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定，所述测试预测帧是基于预测帧重要性值最高值确定；解码所述阶段预测帧的预测帧的运动向量，基于预处理的信息帧的RGB图像和预测帧的运动向量的获取，确定压缩域信息。4.根据权利要求1所述的小样本视频分类方法，其特征在于，所述基于所述压缩域信息，获取短时融合的帧特征，包括：基于所述压缩域信息，分别构建I分支和MV分支，且基于侧向连接的I分支和MV分支的短时交互，每个分支均输出短时融合的帧特征，其中，所述基于侧向连接的I分支和MV分支的短时交互发生于同一图像群组内。5.根据权利要求1
‑
4中任一项所述的小样本视频分类方法，其特征在于，所述基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果，包括：基于自注意力层对短时融合的帧特征的处理，获取长短时帧特征；在长短时帧特征投影于查询类别原型所在特征空间的情况下，获取查询特征；输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。6.根据权利要求5所述的小样本视频分类方法，其特征在于，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得，包括：
基于多个所述长短时帧特征首尾拼接获取的向量，获取视频的n元组，其中，n表示超参数，且n为正整数；基于查询视频的n元组集合，获取查询视频的n元组表示；基于支撑类别下所有支撑视频的n元组集合，获取支撑类别的n元组表示。7.一种小样本视频分类模型训练方法...

【专利技术属性】
技术研发人员：李扬曦，彭成维，刘科栋，缪亚男，王佩，胡卫明，李兵，刘雨帆，王坚，罗文阳，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人