一种基于多实例学习和标签关系图的多标签视频分类方法技术

技术编号:38435029 阅读:14 留言:0更新日期:2023-08-11 14:20
本申请涉及一种基于多实例学习和标签关系图的多标签视频分类方法,包括以下步骤:获取待分类视频的每一帧特征;将所述视频的每一帧特征视为一个实例,将所有的帧特征合并为包级特征对视频进行表示;将视频的所述包级特征映射为每个视频分类标签的内容感知类别表示;学习所述视频分类标签的关系,构建标签关系图,并采用标签关系卷积神经网络从相应的内容感知类别表示中增强当前视频特征,获得每一个分类标签的概率得分;将所述的每一个分类标签的概率得分和设定阈值进行比对,确定所述待分类视频最终的标签。本申请可以根据当前对象动态学习,从而可以纠正多标签视频预测中的频率偏差,使得视频最终的分类标签更加准确。使得视频最终的分类标签更加准确。使得视频最终的分类标签更加准确。

【技术实现步骤摘要】
一种基于多实例学习和标签关系图的多标签视频分类方法


[0001]本申请涉及人工智能的视频理解
,尤其是涉及一种基于多实例学习和标签关系图的多标签视频分类方法。

技术介绍

[0002]近年来,随着在线视频共享平台的蓬勃发展,海量视频数据的自动理解和处理成为亟待解决的问题。在实际的视频分类场景中,每一个视频往往有多个不同类型的标签,比如不同的事物、风格、场景、动作等,多标签视频分类在用户视频推荐和视频内容检测中具有重要的应用价值。
[0003]现有的视频分类技术主要分为两类——基于时间的建模方法和基于帧的方法。其中,基于时间的建模方法,主要通过识别视频帧之间的时间相关性,获取运动信息,从而完成事件分类。这种方法适用于动作识别,即使用端到端网络模型将视频剪辑映射到单个动作标签。基于帧的方法则利用了视频中的静态帧,例如强调对象和场景而不是动作的分类任务,这种方法通常需要捕获视频中的关键帧。
[0004]具体的说,所述的基于帧的方法,比如ML

GCN算法,通过图卷积神经网络学习标签之间的关系,得到一个确定的分类模型,然后再利用该分类模型直接对待分类的视频进行分类,即使用一个学习了标签共现频率的分类器进行特征匹配,根据标签共现的频率来决定视频最终的分类。
[0005]但是该分类方法存在以下问题:ML

GCN算法的分类模型,仅仅通过学习标签共现的先验知识进行视频分类,不能根据当前对象动态学习,因此,全局标签关系可能导致频率偏差,该偏差会加强较强的关联而忽略较弱的关联,使得视频最终的分类标签不是特别准确。

技术实现思路

[0006]为了提高视频分配分类标签的准确性,本申请提供一种基于多实例学习和标签关系图的多标签视频分类方法。
[0007]第一方面,本申请提供的一种基于多实例学习和标签关系图的多标签视频分类方法采用如下的技术方案:一种基于多实例学习和标签关系图的多标签视频分类方法,包括以下步骤:获取待分类视频的每一帧特征;将所述视频的每一帧特征视为一个实例,将所有的帧特征合并为包级特征对视频进行表示;将视频的所述包级特征映射为每个视频分类标签的内容感知类别表示;学习所述视频分类标签的关系,构建标签关系图,并采用标签关系卷积神经网络从相应的内容感知类别表示中增强当前视频特征,获得每一个分类标签的概率得分;将所述的每一个分类标签的概率得分和设定阈值进行比对,确定所述待分类视频
最终的标签。
[0008]通过采用上述技术方案,即多注意标签关系学习卷积神经网络(又称为MALL

CNN),将多实例学习框架应用于视频理解,视频被视为包,视频中的帧是包的实例,通过建模标签关系,在全局标签关系图中突出当前视频标签,本申请不需要利用标签共现的先验知识进行视频分类,而是根据当前对象动态学习,从而可以纠正多标签视频预测中的频率偏差,使得视频最终的分类标签更加准确。
[0009]优选的,具体通过以下方法得到视频的包级特征:使用注意力机制为每一个视频帧分配注意权重;根据每一个视频帧的帧特征和所述注意权重,进行加权求和处理,得到视频的包级特征。
[0010]通过采用上述技术方案,使用注意力机制为每一个视频帧分配注意权重,然后将帧分组到包中,使得最终得到的视频的包级特征更加准确,进而基于该视频的包级特征进行分类时分类的结果也更加准确。
[0011]优选的,具体采用以下公式为每一个视频帧分配注意权重w
i
:其中,P、Q、a是三个全连接层的参数,L为采集的帧的数量,D为通道数;F
i
、F
j
为实例,即第i个、第j个帧特征,

表示逐元素相乘,Sigmoid(
·
)、tanh(
·
)是非线性的激活函数。
[0012]通过采用上述技术方案,本申请使用注意力机制,而不是简单的将视频的帧级特征进行平均得到包级特征,从而可以尽量多的保留有用的帧的信息,减少无用的帧的信息,使得最终的视频标签分类更加准确;另外,本申请中使用的3个全连接层中的2个全连接层后面分别接了一个非线性激活函数,从而可以加强神经网络的范化性,不容易出现过拟合。
[0013]在三个全连接层之间引入了两个非线性激活函数Sigmoid和tanh,从而加强了网络的非线性性能,有利于提高本申请方法的泛化性。
[0014]优选的,采用Softmax将注意权重之和设为1。从而使得每一帧经过加权计算后最终得到的包级特征不会过大。
[0015]优选的,采用基于标签注意转换器的特征映射机制LAT将视频的所述包级特征映射为视频分类标签的内容感知类别表示,具体包括以下步骤:将视频的所述包级特征转化为类特定的标签向量和包级特征向量其中,H、W、D指特征的三个维度,分别指代特征的长、宽和通道数,C为类别总数,l
C
是L中的第C个向量,D

≤D;根据所述的类特定的标签向量和特征向量,得到内容感知类别表示其中,每个类别表示x
c
的计算方式如下:式中,和v

i,j
分别为类别c的特定标签向量L和视频特征向量V

(i,j)
的权重。
[0016]通过采用以上技术方案,将视频的所述包级特征转化为类特定的标
签向量和包级特征向量再根据所述的类特定的标签向量和包级特征向量,生成每个类的特征向量(X={X1,X2,X3,

X
C
}),从而实现了将包级特征转换为标签类,同时降低了通道的维度,进而降低了网络复杂度,提高了网络实时性,使得视频标签分类的效率更高。
[0017]优选的,所述的包级特征通过一个1*1的卷积函数获得包级特征向量具体的,将所述卷积函数的输出通道数设置为D',输入视频的所述包级特征即得包级特征向量所述的包级特征向量通过分类器获得类特定的标签向量将所述的包级特征向量分别与类特定的标签向量相乘,得到视频的内容感知类别表示
[0018]通过采用上述技术方案,通过一个1*1的卷积函数获得包级特征向量通过分类器获得类特定的标签向量将所述的包级特征向量分别与类特定的标签向量相乘,得到视频的内容感知类别表示从而实现了通过很少的计算即可将标签这个维度引进来,提高了整个视频标签分类的效率。
[0019]优选的,所述的学习所述视频分类标签的关系,构建标签关系图,并采用标签关系卷积神经网络从相应的内容感知类别表示中增强当前视频特征,具体包括:将待分类视频的多个视频分类标签的内容感知类别表示进行卷积处理,得到邻接矩阵及对应的邻接矩阵的图结构;根据所述邻接矩阵的图结构,在每个通道上获取不同标签之间的关系,得到新的图结构;将所述新的图结构与所述邻接矩阵的图结构进行求和处理,通过残差连接得到残差图结构,即最终的类表示向量。
[0020]通过采用上述技术方案,构建三个标签关系图(即邻接矩阵的图结构、新的图结构及残差本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多实例学习和标签关系图的多标签视频分类方法,其特征在于,包括以下步骤:获取待分类视频的每一帧特征;将所述视频的每一帧特征视为一个实例,将所有的帧特征合并为包级特征对视频进行表示;将视频的所述包级特征映射为每个视频分类标签的内容感知类别表示;学习所述视频分类标签的关系,构建标签关系图,并采用标签关系卷积神经网络从相应的内容感知类别表示中增强当前视频特征,获得每一个分类标签的概率得分;将所述的每一个分类标签的概率得分和设定阈值进行比对,确定所述待分类视频最终的标签。2.根据权利要求1所述的基于多实例学习和标签关系图的多标签视频分类方法,其特征在于,具体通过以下方法得到视频的包级特征:使用注意力机制为每一个视频帧分配注意权重;根据每一个视频帧的帧特征和所述注意权重,进行加权求和处理,得到视频的包级特征。3.根据权利要求2所述的基于多实例学习和标签关系图的多标签视频分类方法,其特征在于,具体采用以下公式为每一个视频帧分配注意权重ω
i
:其中,P、Q、a是三个全连接层的参数,L为采集的帧的数量,D为通道数;F
i
、F
j
为实例,即第i个、第j个帧特征,

表示逐元素相乘,Sigmoid(
·
)、tanh(
·
)是非线性的激活函数。4.根据权利要求1所述的基于多实例学习和标签关系图的多标签视频分类方法,其特征在于,采用基于标签注意转换器的特征映射机制LAT将视频的所述包级特征映射为视频分类标签的内容感知类别表示,具体包括以下步骤:将视频的所述包级特征转化为类特定的标签向量和包级特征向量其中,H、W、D指特征的三个维度,分别指代特征的长、宽和通道数,C为类别总数,l
C
是L中的第C个向量,D

≤D;根据所述的类特定的标签向量和特征向量,得到内容感知类别表示其中,每个类别表示x
c
的计算方式如下:式中,和v

i,j
分别为类别c的特定标签向量L和视频特征向量V

(i,j)
的权重。5.根据权利要求1所述的基于多实例学习和标签关系图的多标签视频分类方法,其特征在于,所述的学习所述视频分类标签的关系,构建标签关系图,并采用标签关系卷...

【专利技术属性】
技术研发人员:徐成吴宏俊刘宏哲徐冰心潘卫国代松银
申请(专利权)人:北京联合大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1