一种图像分类系统及其训练方法技术方案

技术编号:39489410 阅读:12 留言:0更新日期:2023-11-24 11:11
本发明专利技术实施例提供了一种图像分类系统,用于对输入的图像进行分类,该系统包括:特征提取模块,用于对图像进行特征提取,以得到图像对应的特征向量;特征旋转模块,用于基于正交投影矩阵对特征向量进行旋转得到旋转后的特征向量,其中,所述正交投影矩阵是从预设的正交矩阵提取;分类模块,其包括:固定参数线性层用于对旋转后的特征向量进行均衡得到图像属于每个类别的

【技术实现步骤摘要】
一种图像分类系统及其训练方法、图像分类方法


[0001]本专利技术涉及机器学习领域的多分类领域,具体来说,涉及训练集中样本所属的类别分布极不均衡
(
或者说标签分布极不均匀
)
的长尾分类任务领域,更具体地说,涉及一种图像分类系统及其训练方法

图像分类方法


技术介绍

[0002]在图像分类任务中,长尾学习
(Long

tailed Learning)
问题是深度神经网络模型在进行分类任务时面临的挑战

其中,长尾分布的图像数据指的是一些类别
(
头部类别
)
的样本数目很多,而另外一些类别
(
尾部类别
)
只包含很少的样本

在这种情况下,训练一个性能良好的模型是很困难的,因为模型会被头部类别所占据而忽视尾部类别

[0003]在传统的图像分类和识别任务中,训练的长尾分布的图像数据往往都受到了人工的均衡,即不同类别的样本数量无明显差异

一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本

举个简单的例子,如果要做一个动物分类数据集,猫狗等常见数据可以轻轻松松的采集数以百万张的图片,但是考虑到数据集的均衡,必须也给雪豹等罕见动物采集等量的样本,而随着类别稀有度的增加,其采集成本往往成指数增长

因此寻求能够在这种不平衡数据上具有良好表现的方法是必要的

[0004]目前,解决长尾分布的图像数据分类问题最简单的两类基本方法是重采样
(Re

sampling)
和重加权
(Re

weighting)。
这类方法本质都是利用已知的数据集分布,在学习过程中对数据分布进行暴力的反向加权
(
一些文献称
Hacking)
,以通过强化尾部类别的学习,抵消长尾效应

但是这些方法往往存在性能折衷的问题,即以头部类性能下降的代价来提高尾部类的识别性能

[0005]最近,神经坍塌
(Neural Collapse)
现象在深度学习领域引起了越来越多的关注

由于深度神经网络模型中的最后一层会有一个线性分类层,神经坍塌本质上揭示了深层神经网络模型中的最终层分类器倾向于一个简单的对称结构,以实现其最先进的性能

下面是几种现象的神经坍塌:
(1)
可变性的崩溃,对于属于同一类的数据样本,分类器的特征会集中在其类平均值周围,即同类别样本的特征塌陷到一点;
(2)
不同类的特征倾向于简单等角紧框架
(Equiangular Tight Frame

ETF)
,每个类别的特征达到最大线性可分,并倾向于形成简单等角紧框架;
(3)
自对偶对齐,在同类别的特征中,最后一层除了样本的特征达到一点,最后一层线性分类器矩阵的向量也在其对偶向量空间中形成简单等角紧框架,并收敛到倒数最后一层特征的简单等角紧框架;
(4)
最近邻分类,收敛时,模型的推理结果会与在最后一层特征空间内做最近邻分类的结果相同

因此,神经坍塌现象指的是在标签平衡的数据集上训练分类器,当交叉熵损失函数达到最小值时,分类器的特征
(
深度模型的最后一层激活值
)
会学习到完全对称的结构,导致每个类别在特征空间中高度对称,最终形成等角紧框架
(Equiangular Tight Frame

ETF)。
基于神经坍塌现象业界内也提出了从特征学习的角度来解决长尾分布的图像数据分类问题的方法,其中一种方法是直接将分类模型的
分类器固定为
ETF
来学习平衡表示,以期望获得令人满意的效果

该方法虽然能学习到平衡的特征空间,以让分类问题的特征空间达到
ETF
的结构

然而,直接学习固定方向的特征会损害模型的学习能力,导致更差的泛化性能

[0006]综上所述,现有的解决长尾分布的图像数据分类问题的方法中,基于数据重采样和基于损失重加权的方法存在模型性能折衷的问题,即以头部类性能下降的代价来提高尾部类的识别性能;仅将分类模型的分类器固定为
ETF
来学习固定方向的特征的方法会损害模型的学习能力,导致更差的泛化性能

因此,亟需一种改进的深度神经网络模型,该模型对长尾图像分类场景的泛化性好以及模型本身的性能也好


技术实现思路

[0007]因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种图像分类系统及其训练方法

图像分类方法

[0008]本专利技术的目的是通过以下技术方案实现的:
[0009]根据本专利技术的第一方面,提供一种图像分类系统,用于对输入的图像进行分类,所述系统包括:
[0010]特征提取模块,用于对图像进行特征提取,以得到图像对应的特征向量;
[0011]特征旋转模块,用于基于正交投影矩阵对特征向量进行旋转得到旋转后的特征向量,其中,所述正交投影矩阵是从预设的正交矩阵提取;
[0012]分类模块,其包括基于预设的等角紧框架设置的固定参数线性层以及分类层,其中:
[0013]所述固定参数线性层用于对旋转后的特征向量进行均衡得到图像属于每个类别的
logit
值;
[0014]所述分类层用于基于图像属于每个类别的
logit
值确定图像属于每个类别的置信度

[0015]在本专利技术的一些实施例中,所述正交投影矩阵根据可学习的正交矩阵得到,其中:
[0016]正交矩阵是一个行和列的维数均为
max(N,d)
的矩阵,其中,
N
表示分类所能识别的总类别数,
d
表示所述特征提取模块得到的特征向量的维数,
[0017]当
N

d
时,所述正交投影矩阵等于正交矩阵本身;
[0018]N≠d
,所述正交投影矩阵从所述正交矩阵中取出满足正交矩阵特性的分块矩阵

[0019]在本专利技术的一些实施例中,所述基于预设的等角紧框架将所述固定参数线性层的参数设置为:
[0020][0021]其中,所述
M
*
在对系统进行分类训练时不被更新,
I
为单位阵,
I∈(N
×
N)
...

【技术保护点】

【技术特征摘要】
1.
一种图像分类系统,用于对输入的图像进行分类,其特征在于,所述系统包括:特征提取模块,用于对图像进行特征提取,以得到图像对应的特征向量;特征旋转模块,用于基于正交投影矩阵对特征向量进行旋转得到旋转后的特征向量,其中,所述正交投影矩阵是从预设的正交矩阵提取;分类模块,其包括基于预设的等角紧框架设置的固定参数线性层以及分类层,其中:所述固定参数线性层用于对旋转后的特征向量进行均衡得到图像属于每个类别的
logit
值;所述分类层用于基于图像属于每个类别的
logit
值确定图像属于每个类别的置信度
。2.
根据权利要求1所述的系统,其特征在于,所述正交投影矩阵根据可学习的正交矩阵得到,其中:正交矩阵是一个行和列的维数均为
max(N,d)
的矩阵,其中,
N
表示分类所能识别的总类别数,
d
表示所述特征提取模块得到的特征向量的维数,当
N

d
时,所述正交投影矩阵等于正交矩阵本身;
N≠d
,所述正交投影矩阵从所述正交矩阵中取出满足正交矩阵特性的分块矩阵
。3.
根据权利要求2所述的系统,其特征在于,所述基于预设的等角紧框架将所述固定参数线性层的参数设置为:其中,所述
M
*
在对系统进行分类训练时不被更新,
I
为单位阵,
I∈(N
×
N)

E
为全1的向量,
E∈(1,N)。4.
一种图像分类系统的训练方法,其特征在于,所述方法包括:
S1、
获取图像分类的训练集,其包括多个样本图像和每个样本图像对应的标签,所述标签指示对应样本图像的类别真值;
S2、
获取包括特征提取模块

特征旋转模块和分类模块的图像分类系统,并利用所述训练集按照以下方式对所述图像分类系统进行一次或者多次训练,得到经训练的图像分类系统:由特征提取模块对输入的样本图像进行特征提取,以得到样本图像对应的特征向量;由特征旋转模块基于正交投影矩阵对特征向量进行旋转以得到样本图像对应的旋转后的特征向量,其中,正交投影矩阵是从可学习的正交矩阵提取;由分类模块的固定参数线性层对样本图像对应的旋转后的特征向量进行均衡得到样本图像属于每个类别的
logit
值,以及由分类模块的分类层基于样本图像属于每个类别的
logit
值确定样本图像属于每个类别的置信度;根据训练集中对应样本图像属于每个类别的置信度以及标签确定分类损失值,根据分类损失值更新特征提取模块和可学习的正交矩阵中的参数
。5.
根据权利要求4所述的方法,其特征在于,所述正交投影矩阵根据可学习的正交矩阵得到,其中,正交矩阵是一个行和列的维数均为
max(N,d)
的矩阵,其中,...

【专利技术属性】
技术研发人员:许倩倩高培峰温佩松杨智勇邵慧杨黄庆明
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1