图像识别方法、装置、介质及电子设备制造方法及图纸

技术编号:39255836 阅读:7 留言:0更新日期:2023-10-30 12:07
本申请属于人工智能技术领域,具体涉及一种图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品。该图像识别方法包括:获取待识别的图像;对所述图像进行主类别预测,得到用于表示所述图像与多个主类别的归属关系的主类别预测信息;对所述图像的局部区域进行子类别预测,得到用于表示所述局部区域与多个子类别的归属关系的子类别预测信息,每个子类别与一个主类别具有关联关系;根据所述主类别预测信息、所述子类别预测信息以及所述关联关系预测所述图像所属的目标类别,所述目标类别为所述多个主类别中的一个。本申请可以提高图像内容的识别准确性。本申请可以提高图像内容的识别准确性。本申请可以提高图像内容的识别准确性。

【技术实现步骤摘要】
图像识别方法、装置、介质及电子设备


[0001]本申请属于人工智能
,具体涉及一种图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品。

技术介绍

[0002]通过机器学习模型辅助人工对图像进行内容识别和分类,是人工智能
的一项重要应用。然而,由于图像内容丰富多样,相关图像内容识别技术普遍存在识别准确性差的问题。

技术实现思路

[0003]本申请提供一种图像识别方法、图像识别装置、计算机可读介质、电子设备以及计算机程序产品,目的在于提高图像内容的识别准确性。
[0004]本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
[0005]根据本申请实施例的一个方面,提供一种图像识别方法,该方法包括:获取待识别的图像;对所述图像进行主类别预测,得到用于表示所述图像与多个主类别的归属关系的主类别预测信息;对所述图像的局部区域进行子类别预测,得到用于表示所述局部区域与多个子类别的归属关系的子类别预测信息,每个子类别与一个主类别具有关联关系;根据所述主类别预测信息、所述子类别预测信息以及所述关联关系预测所述图像所属的目标类别,所述目标类别为所述多个主类别中的一个。
[0006]根据本申请实施例的一个方面,提供一种图像识别装置,该装置包括:获取模块,被配置为获取待识别的图像;第一预测模块,被配置为对所述图像进行主类别预测,得到用于表示所述图像与多个主类别的归属关系的主类别预测信息;第二预测模块,被配置为对所述图像的局部区域进行子类别预测,得到用于表示所述局部区域与多个子类别的归属关系的子类别预测信息,每个子类别与一个主类别具有关联关系;第三预测模块,被配置为根据所述主类别预测信息、所述子类别预测信息以及所述关联关系预测所述图像所属的目标类别,所述目标类别为所述多个主类别中的一个。
[0007]在本申请的一些实施例中,基于以上技术方案,所述第二预测模块包括:
[0008]提取模块,被配置为对所述图像进行特征提取,得到第一特征图;
[0009]采样模块,被配置为对所述第一特征图采样得到第二特征图;
[0010]映射模块,被配置为将所述第二特征图映射至多个子类别,得到用于表示所述图像的局部区域与所述多个子类别的归属关系的子类别预测信息。
[0011]在本申请的一些实施例中,基于以上技术方案,所述采样模块可以进一步被配置为:对所述第一特征图进行卷积运算,得到第二特征图。
[0012]在本申请的一些实施例中,基于以上技术方案,所述采样模块可以进一步被配置为:对所述第一特征图进行插值运算,得到具有所述第二通道数量的第三特征图;根据所述
第三特征图对所述第二特征图进行加权运算,得到特征融合后的第二特征图。
[0013]在本申请的一些实施例中,基于以上技术方案,映射模块可以进一步被配置为:对所述第二特征图进行展平运算,得到由所述第二特征图中各个特征位置点的元素组成的一维数组;通过对应于所述多个子类别的全连接层对所述一维数组进行全连接映射,得到用于表示所述图像的局部区域与所述多个子类别的归属关系的子类别预测信息。
[0014]在本申请的一些实施例中,基于以上技术方案,提取模块可以进一步被配置为:通过多个依次连接的卷积层对所述图像进行卷积运算,得到图像尺寸压缩且通道数量增加的中间特征图;通过多个依次连接的残差块对所述中间特征图进行映射处理,得到第一特征图。
[0015]在本申请的一些实施例中,基于以上技术方案,所述主类别预测信息包含所述多个主类别的第一预测值,所述第一预测值用于表示所述图像归属于所述主类别的可信度;所述子类别预测信息包含所述多个子类别的第二预测值,所述第二预测值用于表示所述图像的局部区域归属于所述子类别的可信度;第三预测模块可以进一步包括:
[0016]调整模块,被配置为对应每个主类别的所述第一预测值,根据具有关联关系的子类别的所述第二预测值对所述第一预测值进行调整,得到第三预测值;
[0017]目标预测模块,被配置为根据所述多个主类别的所述第三预测值预测所述图像所属的目标类别。
[0018]在本申请的一些实施例中,基于以上技术方案,第一预测模块可以进一步被配置为:对所述图像进行特征提取,得到第一特征图;对所述第一特征图进行展平运算,得到由所述第一特征图中各个特征位置点的元素组成的一维数组;通过对应于所述多个主类别的全连接层对所述一维数组进行全连接映射,得到用于表示所述图像与多个主类别的归属关系的主类别预测信息。
[0019]在本申请的一些实施例中,基于以上技术方案,所述图像识别装置还可以包括:训练模块,被配置为获取用于对所述图像进行类别预测的神经网络模型,所述神经网络模型包括用于预测所述图像归属于所述主类别的可信度的主干网络和用于预测所述图像的局部区域归属于所述子类别的可信度的子干网络;根据所述神经网络模型对样本数据的预测结果,更新所述神经网络模型的网络参数。
[0020]在本申请的一些实施例中,基于以上技术方案,所述训练模块可以进一步被配置为:获取由所述主干网络对所述样本数据进行映射处理得到的输出向量的第一损失误差;获取由所述子干网络对所述样本数据进行映射处理得到的输出向量的第二损失误差;获取所述主干网络的中间特征图与所述子干网络的中间特征图的第三损失误差;根据所述第一损失误差、所述第二损失误差和所述第三损失误差,更新所述神经网络模型的网络参数。
[0021]在本申请的一些实施例中,基于以上技术方案,所述训练模块可以进一步被配置为:分别从所述主干网络的中间特征图和所述子干网络的中间特征图中提取单通道热力图,所述单通道热力图中的像素值是特征位置点在所述中间特征图的各个通道中的极大值;获取用于表示所述主干网络的单通道热力图与所述子干网络的单通道热力图的分布离散程度的第三损失误差。
[0022]在本申请的一些实施例中,基于以上技术方案,所述训练模块可以进一步被配置为:根据所述子干网络的单通道热力图的图像尺寸,对所述主干网络的单通道热力图进行
插值运算。
[0023]根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的图像识别方法。
[0024]根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为执行所述可执行指令来实现如以上技术方案中的图像识别方法。
[0025]根据本申请实施例的一个方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如以上技术方案中的图像识别方法。
[0026]在本申请实施例提供的技术方案中,通过对图像进行主类别预测可以得到主类别预测信息,并对图像的局部区域进行子类别预测可以得到子类别预测信息,采用主类别预测信息与子类别预测信息共同预测的方式,可以在图像识别中充分利用主类别与子类别的关联性,融合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,包括:获取待识别的图像;对所述图像进行主类别预测,得到用于表示所述图像与多个主类别的归属关系的主类别预测信息;对所述图像的局部区域进行子类别预测,得到用于表示所述局部区域与多个子类别的归属关系的子类别预测信息,每个子类别与一个主类别具有关联关系;根据所述主类别预测信息、所述子类别预测信息以及所述关联关系预测所述图像所属的目标类别,所述目标类别为所述多个主类别中的一个。2.根据权利要求1所述的图像识别方法,其特征在于,对所述图像的局部区域进行子类别预测,包括:对所述图像进行特征提取,得到第一特征图;对所述第一特征图采样得到第二特征图;将所述第二特征图映射至多个子类别,得到用于表示所述图像的局部区域与所述多个子类别的归属关系的子类别预测信息。3.根据权利要求2所述的图像识别方法,其特征在于,对所述第一特征图采样得到第二特征图,包括:对所述第一特征图进行卷积运算,得到第二特征图。4.根据权利要求3所述的图像识别方法,其特征在于,在将所述第二特征图映射至多个子类别之前,所述方法还包括:对所述第一特征图进行插值运算,得到具有所述第二通道数量的第三特征图;根据所述第三特征图对所述第二特征图进行加权运算,得到特征融合后的第二特征图。5.根据权利要求2所述的图像识别方法,其特征在于,将所述第二特征图映射至所述多个子类别,得到用于表示所述图像的局部区域与所述多个子类别的归属关系的子类别预测信息,包括:对所述第二特征图进行展平运算,得到由所述第二特征图中各个特征位置点的元素组成的一维数组;通过对应于所述多个子类别的全连接层对所述一维数组进行全连接映射,得到用于表示所述图像的局部区域与所述多个子类别的归属关系的子类别预测信息。6.根据权利要求2所述的图像识别方法,其特征在于,对所述图像进行特征提取,得到第一特征图,包括:通过多个依次连接的卷积层对所述图像进行卷积运算,得到图像尺寸压缩且通道数量增加的中间特征图;通过多个依次连接的残差块对所述中间特征图进行映射处理,得到第一特征图。7.根据权利要求1至6中任意一项所述的图像识别方法,其特征在于,所述主类别预测信息包含所述多个主类别的第一预测值,所述第一预测值用于表示所述图像归属于所述主类别的可信度;所述子类别预测信息包含所述多个子类别的第二预测值,所述第二预测值用于表示所述图像的局部区域归属于所述子类别的可信度;
根据所述主类别预测信息、所述子类别预测信息以及所述关联关系预测所述图像所属的目标类别,包括:对应每个主类别的所述第一预测值,根据具有关联关系的子类别的所述第二预测值对所述第一预测值进行调整,得到第三预测值;根据所述多个主类别的所述第三预测值预测所述图像所属的目标类别。8.根据权利要求1至6中任意一项所述的图像识别方法,其特征在于,对所述图像进行主类别预测,包括:对所述图像进行特征提取,得到第一特征图;对所述第一特征图进行展平运算,得到由所述第一特征图中各个特征位置点的元素组成的一维数组;通过对应于所述多个...

【专利技术属性】
技术研发人员:朱城
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1