图像分类方法、训练图像分类模型的方法及装置制造方法及图纸

技术编号:39246151 阅读:14 留言:0更新日期:2023-10-30 11:58
本申请实施例公开了一种图像分类方法、训练图像分类模型的方法及装置。主要技术方案包括:获取待分类的图像;对所述待分类的图像进行特征提取,得到所述图像的特征表示;利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;利用所述图像的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述待分类的图像是否属于目标类别的分类结果。通过本申请能够使得图像分类结果具有更高的准确率。像分类结果具有更高的准确率。像分类结果具有更高的准确率。

【技术实现步骤摘要】
图像分类方法、训练图像分类模型的方法及装置


[0001]本申请涉及计算机视觉
,特别是涉及一种图像分类的方法、训练图像分类模型的方法及装置。

技术介绍

[0002]图像分类是根据图像的语义信息对不同类别的图像进行区分,是计算机视觉中重要的基础问题。图像分类在很多领域都有着广泛的应用,例如:交通领域的交通场景识别、电商领域的商品图像自动分类,医学领域的图像识别等等。
[0003]在一些特殊领域中对于图像分类的准确率和召回率具有较高的要求。虽然目前已经存在利用深度学习模型来对图像进行分类的相关技术,但分类结果的准确率仍有待提高。

技术实现思路

[0004]有鉴于此,本申请提供了一种图像分类的方法、训练图像分类模型的方法及装置,以便于提高图像分类结果的准确率。
[0005]本申请提供了如下方案:
[0006]第一方面,提供了一种图像分类方法,所述方法包括:
[0007]获取待分类的图像;
[0008]对所述待分类的图像进行特征提取,得到所述图像的特征表示;
[0009]利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;
[0010]利用所述图像的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;
[0011]利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述待分类的图像是否属于目标类别的分类结果。
[0012]根据本申请实施例中一可实现的方式,所述方法还包括
[0013]利用所述类别分配矩阵对所述待分类的图像进行分割,得到预设类别的图像区域,所述预设类别包括所述目标类别。
[0014]根据本申请实施例中一可实现的方式,对所述待分类的图像进行特征提取,得到所述图像的特征表示包括:
[0015]对所述待分类的图像进行特征提取,得到多种分辨率下的各元素Token的特征表示,将最高分辨率下的各Token的特征表示作为所述图像的特征表示。
[0016]根据本申请实施例中一可实现的方式,利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理包括:
[0017]利用多个聚类中心的初始表示得到查询矩阵,将查询矩阵输入多层串连的转换Transformer网络,各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对
应,各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵,对输入本层Transformer网络的查询矩阵进行交叉注意力处理,得到本层Transformer网络输出的查询矩阵;
[0018]利用最后一层Transformer网络输出的查询矩阵得到所述多个聚类中心表示。
[0019]根据本申请实施例中一可实现的方式,利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括:
[0020]对所述多个聚类中心表示进行求平均处理,得到聚类平均表示;
[0021]对所述类别分配矩阵进行池化处理,得到聚类池化特征;
[0022]将所述聚类平均表示和所述聚类池化表示进行整合,利用整合得到的特征表示进行分类,得到所述待分类的图像是否属于目标类别的分类结果。
[0023]第二方面,提供了一种训练图像分类模型的方法,所述方法包括:
[0024]获取包括多个训练样本的训练数据,所述训练样本包括图像样本以及所述图像样本是否属于目标类别的标签;
[0025]利用所述训练数据训练图像分类模型,所述图像分类模型包括:特征提取网络、第一解码网络、第二解码网络和分类网络;所述特征提取网络对所述图像样本进行特征提取,得到所述图像样本的特征表示;所述第一解码网络利用所述图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;所述第二解码网络利用所述图像样本的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述图像样本是否属于目标类别的分类结果;所述训练的目标包括:最小化所述分类结果与对应标签之间的差异。
[0026]根据本申请实施例中一可实现的方式,所述训练样本还包括对所述图像样本标注的预设类别的区域掩码;所述图像分类模型还包括分割网络;
[0027]所述分割网络利用所述类别分配矩阵对所述图像样本进行分割,得到预设类别的图像区域,所述预设类别包括所述目标类别;
[0028]所述训练的目标还包括:最小化所述预设类别的图像区域与对应区域掩码之间的差异。
[0029]根据本申请实施例中一可实现的方式,所述特征提取网络对所述图像样本进行特征提取,得到所述图像样本的特征表示包括:对所述图像样本进行特征提取,依次得到多种分辨率下的各元素Token的特征表示,将最高分辨率下的各Token的特征表示作为所述图像样本的特征表示;
[0030]所述第一解码网络包括多层串连的Transformer网络,所述多个聚类中心的初始表示作为查询矩阵输入第一层Transformer网络,各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应,各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵,对输入本层Transformer网络的查询矩阵进行交叉注意力处理,得到本层Transformer网络输出的查询矩阵;利用最后一层Transformer网络输出的查询矩阵得到所述多个聚类中心表示。
[0031]根据本申请实施例中一可实现的方式,所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括:
[0032]所述分类网络对所述多个聚类中心表示进行求平均处理,得到聚类平均表示;
[0033]对所述类别分配矩阵进行池化处理,得到聚类池化表示;
[0034]将所述聚类平均表示和所述聚类池化表示进行整合,利用整合得到的特征表示进行分类,得到所述图像样本是否属于目标类别的分类结果。
[0035]第三方面,提供了一种图像分类方法,由云端服务器执行,所述方法包括:
[0036]获取来自用户终端的待分类的图像;
[0037]对所述待分类的图像进行特征提取,得到所述图像的特征表示;
[0038]利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;
[0039]利用所述图像的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;
[0040]利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述待分类的图像是否属于目标类别的分类结果;
[0041]将所述分类结果返回给所述用户终端。
[0042]第四方面,提供了一种图像分类装置,所述装置包括:
[0043]图像获取单元,被配置为获取待分类的图像;
[0044]特征提取单元,被配本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类方法,其特征在于,所述方法包括:获取待分类的图像;对所述待分类的图像进行特征提取,得到所述图像的特征表示;利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;利用所述图像的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述待分类的图像是否属于目标类别的分类结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用所述类别分配矩阵对所述待分类的图像进行分割,得到预设类别的图像区域,所述预设类别包括所述目标类别。3.根据权利要求1所述的方法,其特征在于,对所述待分类的图像进行特征提取,得到所述图像的特征表示包括:对所述待分类的图像进行特征提取,得到多种分辨率下的各元素Token的特征表示,将最高分辨率下的各Token的特征表示作为所述图像的特征表示。4.根据权利要求3所述的方法,其特征在于,利用所述图像的特征表示对预先训练得到的多个聚类中心的初始表示进行交叉注意力处理包括:利用多个聚类中心的初始表示得到查询矩阵,将查询矩阵输入多层串连的转换Transformer网络,各层Transformer网络按照分辨率从低到高的顺序与各分辨率一一对应,各层Transformer网络利用对应分辨率下的各Token的特征表示得到键矩阵和值矩阵,对输入本层Transformer网络的查询矩阵进行交叉注意力处理,得到本层Transformer网络输出的查询矩阵;利用最后一层Transformer网络输出的查询矩阵得到所述多个聚类中心表示。5.根据权利要求1至4中任一项所述的方法,其特征在于,利用所述多个聚类中心表示和所述类别分配矩阵进行分类包括:对所述多个聚类中心表示进行求平均处理,得到聚类平均表示;对所述类别分配矩阵进行池化处理,得到聚类池化特征;将所述聚类平均表示和所述聚类池化表示进行整合,利用整合得到的特征表示进行分类,得到所述待分类的图像是否属于目标类别的分类结果。6.一种训练图像分类模型的方法,其特征在于,所述方法包括:获取包括多个训练样本的训练数据,所述训练样本包括图像样本以及所述图像样本是否属于目标类别的标签;利用所述训练数据训练图像分类模型,所述图像分类模型包括:特征提取网络、第一解码网络、第二解码网络和分类网络;所述特征提取网络对所述图像样本进行特征提取,得到所述图像样本的特征表示;所述第一解码网络利用所述图像样本的特征表示对多个聚类中心的初始表示进行交叉注意力处理,得到多个聚类中心表示;所述第二解码网络利用所述图像样本的特征表示和所述多个聚类中心表示进行解码处理,得到类别分配矩阵;所述分类网络利用所述多个聚类中心表示和所述类别分配矩阵进行分类,得到所述图像样本是否
属于目标类别的分类结果;所述训练的目标包括:最小化所述分类结果与对应标签之间的差异。7.根据权利要求6所述的方法,其特征在于,所述训练样本还包括对所述图像样本标注的预设类别的区域掩码;所述图像分类模型还包括分割网络;所述分割网络利用所述类别分配矩阵对所述图像样本进行分割,得到预设类别的图像区域,所述预设类别包括所述目标类别;所述训练的目标还包括:最小化所述预设类别的图像区域与对应区域掩码之间的差异。8.根据权利要求6所述的方法,其特征在于,所述特征提取网络对所述图像样本进行特征提取,得到所述图像样本的特征表示包括:对所述图像样本进行特征提取,依次得到多种分辨率下的各元素Token的特征表示,将最高分辨率下的各Token的特征...

【专利技术属性】
技术研发人员:夏英达袁铭泽张灵姚佳文裘茗烟董和鑫周靖人吕乐
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1