当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于零次学习的短视频分类方法技术

技术编号:30685014 阅读:71 留言:0更新日期:2021-11-06 09:17
本发明专利技术提供一种基于零次学习的短视频分类方法,包括以下步骤:a)构建训练数据集,对原始短视频提取剪辑片段;b)引入经典的Ken Burns效果进行数据增强;c)采用深度神经网络进行视觉特征提取;d)构造语义空间,对标签类别Y构造其类别描述A;将每类别都表示成语义向量的形式,每个语义向量的任一维度均表示一种高级属性;e)目标视频的类别相似性计算,消除与视频训练集距离过小的目标类;f)目标视频分类决策,采用Triplet Ranking Loss损失函数使得分类模型类内相聚、类间分离;本发明专利技术充分利用短视频的视频特征和标签特征,有效解决短视频的标签分类问题,并提高了对不可见短视频的分类准确性。分类准确性。分类准确性。

【技术实现步骤摘要】
一种基于零次学习的短视频分类方法


[0001]本专利技术涉及计算机视觉、迁移学习
,具体是涉及一种基于零次学习的短视频分类方法。

技术介绍

[0002]目前主流的视频分类方法主要有两种,一种是双流网络,通过两个2D的卷积神经网络(上层的spatio stream convet和下层的temporal stream convet)分别提取视频中物体的静态特征和运动特征,即空间特征和时间特征;另一种是3D 卷积神经网络,通过使用3D卷积核进行卷积操作能够同时捕获视频中的时间和空间的特征信息。这两种方法经过在大型数据集上训练,可以准确地将视频分类为数百个不同的类别。
[0003]然而,上述两种方法往往需要足够多的样本才能训练出足够好的模型,并且对视频数据进行注释的代价是非常昂贵的。如今互联网上视频的规模日益庞大,如Youtube网站每分钟就有数百小时的视频产生,在已注释的视频数据集上进行训练的模型很难有很好的效果。
[0004]零次学习(Zero

shot learning,ZSL)是一种能较好解决上述问题的方法。ZSL 只需对模型进行单次训练,即可将其推广到训练数据集中不存在类的新任务。在 ZSL中,利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集,训练期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。

技术实现思路

[0005]专利技术目的:本专利技术针对当前的视频分类技术对提取出的视频特征利用程度不高,难以完成对未知类视频的分类任务,提出了一种基于零次学习的视频分类方法。
[0006]技术方案:一种基于零次学习的视频分类方法,包括以下步骤:
[0007]1、构建零次学习的训练数据集,针对训练集视频数据进行稀疏采样,并且将每一帧的最短边重塑为128pixels。在训练数据集上随机裁剪一个112x112的 patch,在推理上裁剪一个中心patch。对训练集进行数据增强,通过使用Ken Burns 效果将图像组合为视频:一系列物体在图像周围移动,模拟视频般的运动。
[0008]2、潜在视觉特征提取,从视频本身的内容出发,挖掘与视频紧密相关的深层特征,即空间和时间特征,以保证特征的有效。本文主要通过3D卷积神经网络从视频中提取最深层次的表示向量作为视频的特征向量,并且在网络中分别通过视频帧数量比例为1:4充分提取视频的空间特征和时间特征。
[0009]3、构造视频的类别语义空间,对训练集和测试集的类别Y
tr
、Y
te
构造其类别描述A
tr
、A
te
。将每一个类别y
i
∈Y,都表示成一个语义向量a
i
∈A的形式,而这个语义向量的每一个维度都表示一种高级的属性,比如“黑白色”、“有尾巴”、“有羽毛”等等,当这个类别包含这种属性时,那在其维度上被设置为非零值。
[0010]4、目标视频的类别相似性计算,对测试数据的类别与训练集的类别进行相似性距离计算,并设置相似性阈值t,消除重叠与距离小于相似性阈值的测试类。
[0011]5、视频分类决策,通过全连接层将视频特征向量的维度进行降维,使其维度与语义空间的维度一致。而后使用Triplet Ranking Loss损失函数使得与训练数据样本属于同一个类的正样本距离缩短,与不属于同一个类的负样本距离扩大。
[0012]本专利技术的有益效果具体表述如下:
[0013]1)区别于以往专利技术使用帧间差分法对视频数据进行抽帧,本专利技术使用稀疏采样抽取视频帧。抽取的视频帧具备稀疏性和全局性的特征,因此能够建模间隔更长帧之间时间依赖关系,确保获取视频级信息。
[0014]2)通过Ken Burns效果将场景理解图像组合为视频,为分类模型提供了更多的场景信息,丰富了训练数据集的种类。
[0015]3)提取潜在视觉特征时,模仿生物学中灵长类视觉系统中感知精细的空间和颜色信息和运动信息的视网膜节细胞数量比约为4:1,在3D卷积神经网络通过两路同时提取视频的空间和时间特征,从而更全面地提取视频特征。
[0016]4)处理测试数据集,测试集与训练集通过标签嵌入的余弦相似度进行类别相似性距离计算,只保留类别距离大于设置相似性阈值t的测试集类,使得模型测试结果真实有效。
[0017]5)使用Triplet Ranking Loss作为损失函数,通过正样本与锚点样本之间的距离 d(r
a
,r
p
)、负样本与锚点之间的距离d(r
a
,r
n
)以及边缘距离m三者之间的关系得到损失值的大小,从而对网络的参数进行调整。
附图说明
[0018]图1为本专利技术实施例的算法流程图。
具体实施方式
[0019]下面结合附图和具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0020]本专利技术所述的一种基于零次学习的视频分类方法,如图1所示,包括以下步骤:
[0021]101、训练集数据预处理,通过稀疏采样提取视频剪辑片段:视频首先被分割分成固定数量的片段,然后从每个片段中随机抽取一个片段,并且将每一帧的最短边重塑为128pixels。在训练数据集上随机裁剪一个112x 112的patch,在推理上裁剪一个中心patch,从而得到训练数据集D
s
, D
s
={(x1,c1),(x2,c2),...,(x
N
,c
N
)},由成对的视频x及其类标签c组成。
[0022]102、训练集数据增强,通过使用Ken Burns效果将图像转换为视频。如为了从一个图像创建一个16帧的视频,我们在图像中随机选择“开始”和“结束”物体位置(和物体大小),并线性插值获得16种物体。然后将它们的大小调整为 112x 112,该训练数据集记为D
p

[0023]103、视觉特征提取,通过3D卷积神经网络从经过步骤101、102预处理过的训练集
中提取最深层次的表示向量作为视频的特征向量,并且在网络中分别通过两条通路按照视频剪辑片段数量比例为1:4充分提取视频的空间特征和时间特征,并用横向连接的方法将空间和时间特征连接起来作为视频的完整视觉特征;
[0024]104、类别词向量构造,使用word2vec工具将训练集和测试集的类别Y
tr
、Y
te
映射为词向量,以此度量类别词与词之间的相似性。词向量的每一个维度都表示一种高级的属性,当这个类别词包含这种属性时,那在其维度上被设置为非零值,本文中类别标签映射的词向量维度为300,即c

R
300<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于零次学习的短视频分类方法,包括以下步骤:a、构建零次学习的训练数据,提取视频剪辑片段,并且对每一帧进行重塑和随机裁剪,从而得到训练数据集;训练集数据增强,通过使用Ken Burns效果将图像剪辑为视频,然后对视频空间大小进行调整,得到增强后的训练数据集;b、潜在视觉特征提取,使用深度神经网络得到视频的深层次特征向量,包括视频的空间特征和时间特征;c、构造视频的类别语义空间,对标签类别Y构造其类别描述A;将每一个类别,都表示成一个语义向量的形式,而这个语义向量的每一个维度都表示一种高级的属性,当这个类别包含这种属性时,那在其维度上被设置为非零值;d、目标视频的类别相似性计算,对测试数据的类别与训练集的类别进行相似性距离计算,并设置相似性阈值t,消除重叠与距离小于相似性阈值的测试类;e、视频分类决策,通过全连接层将视频特征向量的维度进行降维,使其维度与语义空间的维度一致;而后使用Triplet Ranking Loss损失函数使得与训练数据样本属于同一个类的正样本距离缩短,与不属于同一个类的负样本距离扩大。...

【专利技术属性】
技术研发人员:陶珺韩立新
申请(专利权)人:河海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1