【技术实现步骤摘要】
一种基于潜层特征生成的广义零样本图像分类方法
[0001]本专利技术属于零样本图像分类领域,具体涉及一种基于潜层特征生成的广义零样本图像分类方法。
技术介绍
[0002]零样本图像分类的目标是识别不提供任何训练样本的unseen类,它假设所有测试样本仅来自unseen类。然而,在现实场景中,需要识别的目标即可能来自unseen类,也可能来自seen类,而不仅仅是来自于unseen类。与零样本图像分类相比,广义零样本图像分类是一种更符合现实也更具挑战性的设置。在GZSL中,测试样本既可以属于seen类,也可以属于unseen类。本专利技术重点解决广义零样本图像分类问题。
[0003]零样本图像分类技术可用于解决各种缺少训练样本的问题,具有重大研究意义和价值。它是通过seen类和unseen类共享的语义信息(例如:属性、词向量或文本描述)从seen类到unseen类迁移知识来实现的。早期的零样本图像分类方法首先建立一个嵌入模型来学习语义空间与视觉空间之间的跨模态映射,然后在一个共同的嵌入空间中执行最近邻搜索以预测类标签。 ...
【技术保护点】
【技术特征摘要】
1.一种基于潜层特征生成的广义零样本图像分类方法,其特征在于,是基于潜层特征生成模型的;该模型由一个WGAN和一个M
‑
VAE组成,它通过将真实的图像特征和WGAN生成的图像特征映射到M
‑
VAE的潜层空间来进一步对齐它们的分布,并通过跨模态重构保留判别性语义信息;其步骤为:首先,使用seen类的图像特征和语义嵌入训练一个潜层特征生成模型;然后,使用这个训练好的模型将seen类和unseen类的语义嵌入和图像特征转化为潜层特征;最后,使用这些潜层特征进行最终的Softmax分类器的训练和测试;其中,M
‑
VAE是多模态重构变分自动编码器,它以来自一个模态的信息作为编码器的输入;但解码器不重构输入,而是将潜层特征重构为另一个模态的信息;以这种跨模态重构方式,M
‑
VAE的潜层空间包含类别的多个模态的信息;其中,WGAN包含一个生成器和一个判别器;生成器基于类语义嵌入和随机噪声合成视觉特征、判别器试图将合成视觉特征与从CNN中提取的真实视觉特征区分开来;所述M
‑
VAE包含一个编码器和一个解码器;编码器将真实视觉特征和合成视觉特征编码为潜层特征,并在潜层空间中对它们执行分布对齐;解码器将潜层特征重构为相应的类语义嵌入向量;编码器通过将真实的和合成的高维视觉特征映射到一个低维的潜层空间来进一步对齐它们的分布,解码器施加的额外的跨模态重构约束使潜层特征保留足够多的语义信息;通过此训练过程,学习了一个有判...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。