一种零样本图像分类方法、装置、终端及介质制造方法及图纸

技术编号：38082750 阅读：17 留言：0更新日期：2023-07-06 08:49

本发明专利技术公开了一种零样本图像分类方法、装置、终端及介质，包括：根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征；根据潜在低维特征进行监督学习，训练得到将视觉特征投影至低维特征的编码器，以及训练得到将低维特征投影至视觉特征的解码器；根据潜在低维特征进行监督学习，训练得到将语义特征投影至低维特征的编码器，以及训练得到将低维特征投影至语义特征的解码器；根据多层级语义编码的图像分类模型，分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决，输出图像分类结果。本发明专利技术提高了对于多层级语义信息的零样本图像分类任务的准确率及效率。图像分类任务的准确率及效率。图像分类任务的准确率及效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种零样本图像分类方法、装置、终端及介质

[0001]本专利技术涉及计算机视觉
，尤其涉及的是一种零样本图像分类方法、装置、终端及介质。

技术介绍

[0002]自动驾驶、扩展现实(Extended reality，XR)、智慧城市等新型智能场景中零样本图像分类任务给无线通信带来了新的挑战，如何基于智能体本地语义知识库设计轻量且多层级语义信息编解码方法，高效完成零样本图像分类任务，从而支撑智简通信亟待解决。
[0003]在自动驾驶、XR、智慧城市等新型智能应用场景中零样本图像分类智能需求中。一方面，以自动驾驶为例，由于车辆的高速移动，周边交通场景也在不断变化。因此，车辆感知到的数据集分布也在不断变化，易遇到零样本分类问题。另一方面，传统基于深度学习的图像分类方法往往需要收集且标注大规模图片数据集，需要消耗大量人力、物力与时间，与未来智简通信低时延、轻量高效需求不符。因此，如何高效实现零样本图片分类对智简通信至关重要。
[0004]为了高效解决零样本图片分类问题，提升分类方法的泛化能力，有方案提出在语义信息...

【技术保护点】

【技术特征摘要】
1.一种零样本图像分类方法，其特征在于，包括：根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征；根据所述潜在低维特征进行监督学习，训练得到将所述视觉特征投影至低维特征的编码器，以及训练得到将所述低维特征投影至所述视觉特征的解码器；根据所述潜在低维特征进行监督学习，训练得到将所述语义特征投影至所述低维特征的编码器，以及训练得到将所述低维特征投影至所述语义特征的解码器；根据多层级语义编码的图像分类模型，分别在视觉特征空间、语义特征空间以及潜在公共低维特征空间进行类别判决，输出图像分类结果。2.根据权利要求1所述的零样本图像分类方法，其特征在于，所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征，之前包括：获取图像样本数据集，利用深度残差网络得到所述样本图像数据集对应的视觉特征向量集合；标注所述样本图像数据集中各样本图像的所属类别，并构建各所属类别的语义知识库。3.根据权利要求2所述的零样本图像分类方法，其特征在于，所述根据条件主标签空间转换算法将视觉特征与语义特征投影到一个公共空间中学习潜在低维特征，包括：根据所述语义知识库，得到各样本图像的语义特征向量；根据各样本图像的语义特征和视觉特征，构建低维特征提取器，将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征。4.根据权利要求1所述的零样本图像分类方法，其特征在于，所述根据各样本图像的语义特征和视觉特征，构建低维特征提取器，将各样本图像的视觉特征与语义特征投影到一个公共空间中学习潜在低维特征，包括：基于条件主标签算法得到低维特征的问题建模，以最小化预测误差和编码误差为联合目标优化视觉映射矩阵和语义映射矩阵：s.t.W
s
W
sT
＝I其中，V表示视觉特征向量矩阵；S表示语义特征向量矩阵；I表示k*k维单元矩阵；基于所述语义映射矩阵，将各样本图像的语义特征向量映射至低维特征空间。5.根据权利要求1所述的零样本图像分类方法，其特征在于，所述根据所述潜在低维特征进行监督学习，训练得到将所述视觉特征投影至低维特征的编码器，以及训练得到将所述低维特征投影至所述视觉特征的解码器，包括：以提取到的低维潜在特征向量为监督，构建视觉自编码器与视觉自解码器；在所述视觉自编码器映射下，将视觉特征向量投影到低维潜在特征空间；在所述视觉自解码器映射下，将所述低维潜在特征空间恢复至所述视觉特征向量。6.根据权利要求5所述的零样本图像分类方法，其特征在于，所述以提取到的低维潜在
特征向量为监督，构建视觉自编码器与视觉自解码器，包括：以所述低维特征空间F为监督，优化以下视觉自编码器问题：s.t.P
v
V＝F其中，P
v
表示将视觉特征V映射到低维潜在特征空间F的投影矩阵，记为视觉自编码器；P
Tv
表示视觉自解码器；将所述视觉自编码器问题的约束缩放至第一目标函数中，以及将所述第一目标函数的第一阶导数设为0，通过Bartels
‑
Stewart算法求得所述视觉自编码器的最优解。7.根据权利要求1所述的零样本图像分类方法，其特征在于，所述根据所述潜在低维特征进行监督学习，训练得到将所述语义特征投影至所述低维特征的编码器，以及训练得到将所述低...

【专利技术属性】
技术研发人员：孙亚萍，陈昊，许晓东，崔曙光，张平，
申请(专利权)人：鹏城实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人