一种基于零次学习的短视频分类方法技术

技术编号：30685014 阅读：71 留言：0更新日期：2021-11-06 09:17

本发明专利技术提供一种基于零次学习的短视频分类方法，包括以下步骤：a)构建训练数据集，对原始短视频提取剪辑片段；b)引入经典的Ken Burns效果进行数据增强；c)采用深度神经网络进行视觉特征提取；d)构造语义空间，对标签类别Y构造其类别描述A；将每类别都表示成语义向量的形式，每个语义向量的任一维度均表示一种高级属性；e)目标视频的类别相似性计算，消除与视频训练集距离过小的目标类；f)目标视频分类决策，采用Triplet Ranking Loss损失函数使得分类模型类内相聚、类间分离；本发明专利技术充分利用短视频的视频特征和标签特征，有效解决短视频的标签分类问题，并提高了对不可见短视频的分类准确性。分类准确性。分类准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于零次学习的短视频分类方法

[0001]本专利技术涉及计算机视觉、迁移学习
，具体是涉及一种基于零次学习的短视频分类方法。

技术介绍

[0002]目前主流的视频分类方法主要有两种，一种是双流网络，通过两个2D的卷积神经网络(上层的spatio stream convet和下层的temporal stream convet)分别提取视频中物体的静态特征和运动特征，即空间特征和时间特征；另一种是3D 卷积神经网络，通过使用3D卷积核进行卷积操作能够同时捕获视频中的时间和空间的特征信息。这两种方法经过在大型数据集上训练，可以准确地将视频分类为数百个不同的类别。
[0003]然而，上述两种方法往往需要足够多的样本才能训练出足够好的模型，并且对视频数据进行注释的代价是非常昂贵的。如今互联网上视频的规模日益庞大，如Youtube网站每分钟就有数百小时的视频产生，在已注释的视频数据集上进行训练的模型很难有很好的效果。
[0004]零次学习(Zero
‑
shot learning，ZSL)是一种能较好解决上述问题的方法。ZSL 只需对模型进行单次训练，即可将其推广到训练数据集中不存在类的新任务。在 ZSL中，利用训练集数据训练模型，使得模型能够对测试集的对象进行分类，但是训练集类别和测试集类别之间没有交集，训练期间需要借助类别的描述，来建立训练集和测试集之间的联系，从而使得模型有效。

技术实现思路

[0005]专利技术目的：本专利技术针对当前的视频分类技术对提取出的视频特...

【技术保护点】

【技术特征摘要】
1.一种基于零次学习的短视频分类方法，包括以下步骤：a、构建零次学习的训练数据，提取视频剪辑片段，并且对每一帧进行重塑和随机裁剪，从而得到训练数据集；训练集数据增强，通过使用Ken Burns效果将图像剪辑为视频，然后对视频空间大小进行调整，得到增强后的训练数据集；b、潜在视觉特征提取，使用深度神经网络得到视频的深层次特征向量，包括视频的空间特征和时间特征；c、构造视频的类别语义空间，对标签类别Y构造其类别描述A；将每一个类别，都表示成一个语义向量的形式，而这个语义向量的每一个维度都表示一种高级的属性，当这个类别包含这种属性时，那在其维度上被设置为非零值；d、目标视频的类别相似性计算，对测试数据的类别与训练集的类别进行相似性距离计算，并设置相似性阈值t，消除重叠与距离小于相似性阈值的测试类；e、视频分类决策，通过全连接层将视频特征向量的维度进行降维，使其维度与语义空间的维度一致；而后使用Triplet Ranking Loss损失函数使得与训练数据样本属于同一个类的正样本距离缩短，与不属于同一个类的负样本距离扩大。...

【专利技术属性】
技术研发人员：陶珺，韩立新，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人