【技术实现步骤摘要】
一种图像分类系统及其训练方法、图像分类方法
[0001]本专利技术涉及机器学习领域的多分类领域,具体来说,涉及训练集中样本所属的类别分布极不均衡
(
或者说标签分布极不均匀
)
的长尾分类任务领域,更具体地说,涉及一种图像分类系统及其训练方法
、
图像分类方法
。
技术介绍
[0002]在图像分类任务中,长尾学习
(Long
‑
tailed Learning)
问题是深度神经网络模型在进行分类任务时面临的挑战
。
其中,长尾分布的图像数据指的是一些类别
(
头部类别
)
的样本数目很多,而另外一些类别
(
尾部类别
)
只包含很少的样本
。
在这种情况下,训练一个性能良好的模型是很困难的,因为模型会被头部类别所占据而忽视尾部类别
。
[0003]在传统的图像分类和识别任务中,训练的长尾分布的图像数据往往都受到了人工的均衡,即不同类别的样本数量无明显差异
。
一个均衡的数据集固然大大简化了对算法鲁棒性的要求,也一定程度上保障了所得模型的可靠性,但随着关注类别的逐渐增加,维持各个类别之间均衡就将带来指数增长的采集成本
。
举个简单的例子,如果要做一个动物分类数据集,猫狗等常见数据可以轻轻松松的采集数以百万张的图片,但是考虑到数据集的均衡,必须也给雪豹等罕见动物采集等量的样本,而随着类别稀有度
【技术保护点】
【技术特征摘要】
1.
一种图像分类系统,用于对输入的图像进行分类,其特征在于,所述系统包括:特征提取模块,用于对图像进行特征提取,以得到图像对应的特征向量;特征旋转模块,用于基于正交投影矩阵对特征向量进行旋转得到旋转后的特征向量,其中,所述正交投影矩阵是从预设的正交矩阵提取;分类模块,其包括基于预设的等角紧框架设置的固定参数线性层以及分类层,其中:所述固定参数线性层用于对旋转后的特征向量进行均衡得到图像属于每个类别的
logit
值;所述分类层用于基于图像属于每个类别的
logit
值确定图像属于每个类别的置信度
。2.
根据权利要求1所述的系统,其特征在于,所述正交投影矩阵根据可学习的正交矩阵得到,其中:正交矩阵是一个行和列的维数均为
max(N,d)
的矩阵,其中,
N
表示分类所能识别的总类别数,
d
表示所述特征提取模块得到的特征向量的维数,当
N
=
d
时,所述正交投影矩阵等于正交矩阵本身;
N≠d
,所述正交投影矩阵从所述正交矩阵中取出满足正交矩阵特性的分块矩阵
。3.
根据权利要求2所述的系统,其特征在于,所述基于预设的等角紧框架将所述固定参数线性层的参数设置为:其中,所述
M
*
在对系统进行分类训练时不被更新,
I
为单位阵,
I∈(N
×
N)
,
E
为全1的向量,
E∈(1,N)。4.
一种图像分类系统的训练方法,其特征在于,所述方法包括:
S1、
获取图像分类的训练集,其包括多个样本图像和每个样本图像对应的标签,所述标签指示对应样本图像的类别真值;
S2、
获取包括特征提取模块
、
特征旋转模块和分类模块的图像分类系统,并利用所述训练集按照以下方式对所述图像分类系统进行一次或者多次训练,得到经训练的图像分类系统:由特征提取模块对输入的样本图像进行特征提取,以得到样本图像对应的特征向量;由特征旋转模块基于正交投影矩阵对特征向量进行旋转以得到样本图像对应的旋转后的特征向量,其中,正交投影矩阵是从可学习的正交矩阵提取;由分类模块的固定参数线性层对样本图像对应的旋转后的特征向量进行均衡得到样本图像属于每个类别的
logit
值,以及由分类模块的分类层基于样本图像属于每个类别的
logit
值确定样本图像属于每个类别的置信度;根据训练集中对应样本图像属于每个类别的置信度以及标签确定分类损失值,根据分类损失值更新特征提取模块和可学习的正交矩阵中的参数
。5.
根据权利要求4所述的方法,其特征在于,所述正交投影矩阵根据可学习的正交矩阵得到,其中,正交矩阵是一个行和列的维数均为
max(N,d)
的矩阵,其中,...
【专利技术属性】
技术研发人员:许倩倩,高培峰,温佩松,杨智勇,邵慧杨,黄庆明,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。