小样本视频分类和分类模型训练方法及其装置制造方法及图纸

技术编号:34842689 阅读:23 留言:0更新日期:2022-09-08 07:40
本发明专利技术提供一种小样本视频分类和分类模型训练方法及其装置,涉及计算机视觉技术领域,所述分类方法包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

【技术实现步骤摘要】
小样本视频分类和分类模型训练方法及其装置


[0001]本专利技术涉及计算机视觉
,尤其涉及一种小样本视频分类和分类模型训练方法及其装置。

技术介绍

[0002]作为计算机视觉的一个重要研究领域,在每个类别给出少量示例的条件下,小样本视频分类方法将类别未知的视频分类为示例类别之一。通常将给出示例的类别称为支撑类别(Support Categories),给出的示例称为支撑视频(Support Videos),待分类视频称为查询视频(Query Videos)。小样本视频分类技术可以显著减少视频收集与标注的工作量,也可快速部署到新类别分类问题上而无需重新进行大规模训练。为了根据极其有限的示例对新视频进行正确分类,小样本视频分类通常一次输入一个任务(task),任务由支撑视频和若干查询视频组成;输出该任务中所有查询视频的所属支撑类别。小样本视频分类方通常采用情节训练(Episodic Training)技术进行模型参数估计,该训练技术以大规模视频分类数据集为基础,将数据集按类别划分为三个子集,不同子集包含完全不同的类别,从各子集中抽样若干任务分别构成元训练集、元验证集和元测试集,这种训练方式保证了训练任务与测试任务的类别完全无重合,因此可以衡量小样本分类方法在新类别上的泛化能力。模型上,小样本视频分类方法根据支撑视频对查询视频进行分类,现有方法都可纳入匹配框架,即首先提取支撑视频和查询视频的特征,随后对查询视频和支撑视频的特征进行匹配(Matching),各方法的区别主要在于特征提取方法以及匹配方法的不同。
[0003]而常规视频分类方法需要为每个类别给出数以千计的示例,并用这些示例训练分类模型并获取模型参数,再用分类模型判断待分类样本的所属类别。当示例过少时,分类模型训练时会发生过拟合现象,使分类模型在示例之外的视频上分类准确率大幅下降。由于小样本视频分类中每个类别仅有数个示例,常规视频分类方法不能直接用于小样本视频分类。因此,小样本视频分类方法在输入输出、训练方法与模型设计上与常规视频分类方法有较大区别。
[0004]现有技术中,现有小样本视频分类方法仅仅处理视频帧的RGB图像,对时序信息的利用不够充分。一方面,现有方法均匀抽取视频帧,忽略了信息在帧间分布的不均匀性,因此不能提取出最具鉴别力的视频特征,阻碍了分类精度的提高;另一方面,现有方法只能从RGB图像中隐式推理时序信息,缺乏显式时序信息对分类进行引导,因此计算效率不高,限制了小样本视频分类方法的实际应用。

技术实现思路

[0005]本专利技术提供一种小样本视频分类和分类模型训练方法及其装置,用以解决现有技术中仅处理视频帧的RGB图像,对时序信息的利用不够充分的缺陷,实现基于少量示例视频情况下的快速、高精度、高效率的小样本视频分类。
[0006]本专利技术提供一种小样本视频分类方法,包括:
[0007]将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

Transformer模型,获取压缩域信息;
[0008]基于所述压缩域信息,获取短时融合的帧特征;
[0009]基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果。
[0010]根据本专利技术提供的小样本视频分类方法,所述将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

Transformer模型,获取压缩域信息,包括:
[0011]基于小样本分类任务,获取预测帧重要性值和图像群组重要性值;
[0012]基于所述图像群组重要性值获取信息帧的RGB图像,且基于所述预测帧重要性值获取预测帧的运动向量;
[0013]基于预处理的所述信息帧的RGB图像和所述预测帧的运动向量,获取压缩域信息。
[0014]根据本专利技术提供的小样本视频分类方法,所述基于所述图像群组重要性值获取信息帧的RGB图像,且基于所述预测帧重要性值获取预测帧的运动向量,包括:
[0015]基于图像群组重要性值,获取阶段图像群组,其中,所述阶段图像群组包括训练图像群组和测试图像群组,所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定,所述测试图像群组是基于图像群组重要性值最高值确定;
[0016]解码所述阶段图像群组的信息帧的RGB图像;
[0017]基于所述阶段图像群组,获取阶段预测帧,其中,所述阶段预测帧包括训练预测帧和测试预测帧,训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定,所述测试预测帧是基于预测帧重要性值最高值确定;
[0018]解码所述阶段预测帧的预测帧的运动向量,基于预处理的信息帧的RGB图像和预测帧的运动向量的获取,确定压缩域信息。
[0019]根据本专利技术提供的小样本视频分类方法,所述基于所述压缩域信息,获取短时融合的帧特征,包括:基于所述压缩域信息,分别构建I分支和MV分支,且基于侧向连接的I分支和MV分支的短时交互,每个分支均输出短时融合的帧特征,其中,所述基于侧向连接的I分支和MV分支的短时交互发生于同一图像群组内。
[0020]根据本专利技术提供的小样本视频分类方法,所述基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果,包括:
[0021]基于自注意力层对短时融合的帧特征的处理,获取长短时帧特征;
[0022]在长短时帧特征投影于查询类别原型所在特征空间的情况下,获取查询特征;
[0023]输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。
[0024]根据本专利技术提供的小样本视频分类方法,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得,包括:
[0025]基于多个所述长短时帧特征首尾拼接获取的向量,获取视频的n元组,其中,n表示
超参数,且n为正整数;
[0026]基于查询视频的n元组集合,获取查询视频的n元组表示;
[0027]基于支撑类别下所有支撑视频的n元组集合,获取支撑类别的n元组表示。
[0028]本专利技术还提供一种小样本视频分类模型训练方法,包括:
[0029]构建压缩域长短时Cross

Transformer模型;
[0030]基于预先构建的小样本视频分类训练数据集,对所述压缩域长短时Cross

Transformer模型进行情节训练,获取收敛的压缩域长短时Cross

Transformer模型,其中,所述收敛的压缩域长短时Cross
...

【技术保护点】

【技术特征摘要】
1.一种小样本视频分类方法,其特征在于,包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

Transformer模型,获取压缩域信息;基于所述压缩域信息,获取短时融合的帧特征;基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果。2.根据权利要求1所述的小样本视频分类方法,其特征在于,所述将小样本分类任务输入预先构建的收敛的压缩域长短时Cross

Transformer模型,获取压缩域信息,包括:基于小样本分类任务,获取预测帧重要性值和图像群组重要性值;基于所述图像群组重要性值获取信息帧的RGB图像,且基于所述预测帧重要性值获取预测帧的运动向量;基于预处理的所述信息帧的RGB图像和所述预测帧的运动向量,获取压缩域信息。3.根据权利要求2所述的小样本视频分类方法,其特征在于,所述基于所述图像群组重要性值获取信息帧的RGB图像,且基于所述预测帧重要性值获取预测帧的运动向量,包括:基于图像群组重要性值,获取阶段图像群组,其中,所述阶段图像群组包括训练图像群组和测试图像群组,所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定,所述测试图像群组是基于图像群组重要性值最高值确定;解码所述阶段图像群组的信息帧的RGB图像;基于所述阶段图像群组,获取阶段预测帧,其中,所述阶段预测帧包括训练预测帧和测试预测帧,训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定,所述测试预测帧是基于预测帧重要性值最高值确定;解码所述阶段预测帧的预测帧的运动向量,基于预处理的信息帧的RGB图像和预测帧的运动向量的获取,确定压缩域信息。4.根据权利要求1所述的小样本视频分类方法,其特征在于,所述基于所述压缩域信息,获取短时融合的帧特征,包括:基于所述压缩域信息,分别构建I分支和MV分支,且基于侧向连接的I分支和MV分支的短时交互,每个分支均输出短时融合的帧特征,其中,所述基于侧向连接的I分支和MV分支的短时交互发生于同一图像群组内。5.根据权利要求1

4中任一项所述的小样本视频分类方法,其特征在于,所述基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果,包括:基于自注意力层对短时融合的帧特征的处理,获取长短时帧特征;在长短时帧特征投影于查询类别原型所在特征空间的情况下,获取查询特征;输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。6.根据权利要求5所述的小样本视频分类方法,其特征在于,所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得,包括:
基于多个所述长短时帧特征首尾拼接获取的向量,获取视频的n元组,其中,n表示超参数,且n为正整数;基于查询视频的n元组集合,获取查询视频的n元组表示;基于支撑类别下所有支撑视频的n元组集合,获取支撑类别的n元组表示。7.一种小样本视频分类模型训练方法...

【专利技术属性】
技术研发人员:李扬曦彭成维刘科栋缪亚男王佩胡卫明李兵刘雨帆王坚罗文阳
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1