本申请涉及细粒度动图分类技术领域,特别涉及一种动态图像的分类方法、装置、车辆及存储介质,其中,包括:获取待分类的动态图像;识别动态图像中每帧图像的特征图,将每帧图像的特征图输入预先训练得到的分类模型,输出动态图像的实际分类类别,其中,分类模型包括第一分支网络,且第一分支网络包括细粒度分类器和粗粒度分类器,利用细粒度分类器和粗粒度分类器分别生成动态图像的细粒度预测分数和粗粒度预测分数,并根据细粒度预测分数和/或粗粒度预测分数匹配动态图像的实际分类类别。由此,解决了相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。分类模型的泛化性和健壮性较低等问题。分类模型的泛化性和健壮性较低等问题。
【技术实现步骤摘要】
动态图像的分类方法、装置、车辆及存储介质
[0001]本申请涉及细粒度动图分类
,特别涉及一种动态图像的分类方法、装置、车辆及存储介质。
技术介绍
[0002]作为一种理想的信息传输媒介,动图已被广泛应用于各种社交媒体、广告宣传、数字论坛和在线教育,甚至在电子邮件中被作为表情符号的增强版使用,不知不觉地成为了人们日常网络生活的一部分。高效利用海量低质量的互联网动图,低成本地实现基于深度学习的动图内容分类具有重要的研究价值。而从互联网数据学习细粒度动图分类最大的挑战在于互联网动图的语义标签间存在粗、细粒度的“从属”关系,细粒度标注的动图数据非常有限。
[0003]相关技术中,处理相同问题设置下的细粒度分类任务的方法主要针对静态图像数据,基于CNN(Convolutional Neural Network,卷积神经网络)的双分类分支网络结构实现了利用粗粒度标注图像帮助训练细粒度图像分类模型的目的,使用的基于Minpooling的粗粒度分类方法受限于层次结构完美的数据集,而对于细粒度类别跨度较大、类别间公共特征不明显的层次结构不完美数据集而言,通过Minpooling操作提取到的很有可能是背景特征,不具有通用性。而且细粒度图像分类比图像识别等普通的粗粒度图像分类困难的多,仅使用粗粒度标签作监督训练只能提升模型的通用特征提取能力,对细粒度图像分类模型的性能提升十分有限。
技术实现思路
[0004]本申请提供一种动态图像的分类方法、装置、车辆及存储介质,以解决相关技术中细粒度分类任务的方法,无法提升细粒度图像分类模型的性能,导致图像分类模型的泛化性和健壮性较低等问题。
[0005]本申请第一方面实施例提供一种动态图像的分类方法,包括以下步骤:获取待分类的动态图像;识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别,便于更精确的识别动态图像的实际类别。
[0006]根据上述技术手段,本申请实施例获取待分类的动态图像并识别其中每帧图像的特征图,将其输入至事先训练得到的分类模型中进行分类匹配,输出动态图像对应的实际分类类别,利用可学习的神经网络结构代替了先前基于Minpooling规则的粗粒度分类方法帮助细粒度模型训练,提升了模型的泛化性和健壮性。
[0007]进一步地,所述第一分支网络还包括注意力模块,所述将所述每帧图像的特征图
输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,包括:将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和所述注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于所述每帧图像的细粒度帧预测分和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。
[0008]根据上述技术手段,本申请实施例将动态图像中的每帧图像分别输入至细粒度分类器、粗粒度分类器和注意力模块中,分别输出每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重,得到动态图像的粗粒度预测分数,当处于网络前向传播计算时,根据细颗粒预测分数匹配实际分类类别,否则根据细颗粒以及粗颗粒的预测分数匹配动态图像的实际分类类别,采用粗粒度分类和细粒度分类均可学习的双分支网络结构同时进行粗粒度分类预测和细粒度分类预测,以提高模型的泛化性和鲁棒性。
[0009]进一步地,在将所述每帧图像的特征图输入预先训练得到的分类模型之前,包括:对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。
[0010]根据上述技术手段,本申请实施例对每帧图像的特征图进行空间池化,用于对动图做细粒度分类和粗粒度分类,并得到每帧图像的降维特征,以降低特征图的纬度,为了避免后续网络中神经元数量过多导致网络结构过于复杂从而造成分类模型过拟合。
[0011]进一步地,所述分类模型还包括第二分支网络,其中,所述第一分支网络与所述第二分支网络结构相同,所述分类模型训练过程包括:获取训练数据集,其中,所述训练数据集包括粗粒度标注的动态图像;对所述粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,所述第一动态图像的扰动程度小于所述第二动态图像的扰动程度;将所述第一动态图像输入所述第一分支网络,输出所述第一动态图像的细粒度预测分数,基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,并将所述细粒度伪标签作为所述第二动态图像的真实细粒度标签;将所述第二动态图像输入所述第二分支网络,输出所述第二动态图像的细粒度预测分数和粗粒度预测分数,基于所述第二动态图像的细粒度预测分数和所述真实细粒度标签计算细粒度交叉熵分类损失,并基于所述粗粒度预测分数和所述粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据所述粒度交叉熵分类损失和所述粗粒度交叉熵分类损失计算训练总损失,若所述总损失大于预设阈值,则继续基于所训练数据集对所述第二分支网络进行训练,并同步更新所述第二分支网络和第一分支网络的网络参数,直到所述总损失小于或等于预设阈值,停止训练,并得到所述分类模型。
[0012]根据上述技术手段,本申请实施例获取训练数据集,并对粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像;并将第一动态图像输入第一分支网络得到细粒度预测分数,并生成细粒度伪标签,将其作为第二动态图像的真实细粒度标签;将第二动态图像输入第二分支网络,输出细粒度和粗粒度预测分数,分别计算出细粒度交叉熵分类损失和粗粒度交叉熵分类损失,然后计算出训练总损失,当总损失大于阈值时,继续训练并同步网络参数,若小于阈值则停止训练得到分类模型,粗粒度辅助的细粒度自学习实现了对粗粒度标注中动图的高效利用,提升了模型的泛化性和健壮性。
[0013]进一步地,所述基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,包括:归一化所述第一动态图像的细粒度预测分数,得到细粒度预测概率矩阵;将所述细粒度预测概率矩阵转换为独热编码的概率分布矩阵,将所述概率分布矩阵中的最大类概率对应的细粒度类别映射为相应的粗粒度类别,并转换为独热编码的粗粒度标签;判断所述概率分布矩阵中的最大类概率是否高于预设置信度阈值,且所述独热编码的粗粒度标签是否与所述粗粒度标注的动态图像的真实粗粒度标签一致;若所述最大类概率高于所述预设置信度阈值,且所述独热编码的粗粒度标签与所述真实粗粒度标签一致,则将所述概率分布矩阵作为所述细粒度伪标签,否则不采用所述概率分布矩阵作为所述细粒度伪标签本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种动态图像的分类方法,其特征在于,包括以下步骤:获取待分类的动态图像;识别所述动态图像中每帧图像的特征图,将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,其中,所述分类模型包括第一分支网络,且所述第一分支网络包括细粒度分类器和粗粒度分类器,利用所述细粒度分类器和所述粗粒度分类器分别生成所述动态图像的细粒度预测分数和粗粒度预测分数,并根据所述细粒度预测分数和/或所述粗粒度预测分数匹配所述动态图像的实际分类类别。2.根据权利要求1所述的方法,其特征在于,所述第一分支网络还包括注意力模块,所述将所述每帧图像的特征图输入预先训练得到的分类模型,输出所述动态图像的实际分类类别,包括:将所述每帧图像的特征图分别输入所述细粒度分类器、所述粗粒度分类器和所述注意力模块,输出所述每帧图像的细粒度帧预测分数、粗粒度帧预测分数和权重;基于所述每帧图像的细粒度帧预测分和所述权重进行加权求和,得到所述动态图像的细粒度预测分数,并基于所述粗粒度帧预测分数和所述权重进行加权求和,得到所述动态图像的粗粒度预测分数;若处于网络前向传播计算时,则根据所述细粒度预测分数匹配所述动态图像的实际分类类别,否则,根据所述细粒度预测分数和所述粗粒度预测分数匹配所述动态图像的实际分类类别。3.根据权利要求1所述的方法,其特征在于,在将所述每帧图像的特征图输入预先训练得到的分类模型之前,包括:对所述每帧图像的特征图进行空间池化,得到所述每帧图像的降维特征。4.根据权利要求1所述的方法,其特征在于,所述分类模型还包括第二分支网络,其中,所述第一分支网络与所述第二分支网络结构相同,所述分类模型训练过程包括:获取训练数据集,其中,所述训练数据集包括粗粒度标注的动态图像;对所述粗粒度标注的动态图像进行数据扰动,得到第一动态图像和第二动态图像,其中,所述第一动态图像的扰动程度小于所述第二动态图像的扰动程度;将所述第一动态图像输入所述第一分支网络,输出所述第一动态图像的细粒度预测分数,基于所述第一动态图像的细粒度预测分数生成细粒度伪标签,并将所述细粒度伪标签作为所述第二动态图像的真实细粒度标签;将所述第二动态图像输入所述第二分支网络,输出所述第二动态图像的细粒度预测分数和粗粒度预测分数,基于所述第二动态图像的细粒度预测分数和所述真实细粒度标签计算细粒度交叉熵分类损失,并基于所述粗粒度预测分数和所述粗粒度标注的动态图像计算粗粒度交叉熵分类损失;根据所述粒度交叉熵分类损失和所述粗粒度交叉熵分类损失计算训练总损失,若所述总损失大于预设阈值,则继续基于所训练数据集对所述第二分支网络进行训练,并同步更新所述第二分支网络和第一分支网络的网络参数,...
【专利技术属性】
技术研发人员:张琪,胡小琼,廖刚,单玉梅,罗咏刚,
申请(专利权)人:重庆长安汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。