图像分类模型的训练方法、图像分类方法及装置制造方法及图纸

技术编号:37067601 阅读:15 留言:0更新日期:2023-03-29 19:45
本公开提供了图像分类模型的训练方法、图像分类方法及装置,涉及计算机技术领域,尤其涉及深度学习、计算机视觉等人工智能领域。方案为:获取互为镜像的第一图像和第二图像;分别对第一图像和第二图像进行特征提取,获取第一图像对应的第一特征图和第二图像对应的第二特征图;分别对第一特征图和第二特征图按通道维度进行池化操作,获取第一特征图对应的第一空间注意力权重图和第二特征图对应的第二空间注意力权重图;根据第一空间注意力权重图与第二空间注意力权重图,确定第一约束损失;根据第一约束损失对图像分类模型进行训练。该方法根据互为镜像的第一图像和第二图像的空间注意力权重图,进行注意力一致性约束,提高了模型的分类效果。了模型的分类效果。了模型的分类效果。

【技术实现步骤摘要】
图像分类模型的训练方法、图像分类方法及装置


[0001]本公开涉及计算机
,尤其涉及深度学习、计算机视觉等人工智能领域,具体涉及一种图像分类模型的训练方法、图像分类方法及装置。

技术介绍

[0002]在人工智能领域,注意力机制是在原来神经网络结构上加入一个注意力模块,作用是让神经网络更加关注图片中对类别划分更具影响力的区域,例如在识别不同动物的任务中,注意力模块希望神经网络更关注到图像中动物主体的区域而忽略干扰的背景项。
[0003]相关技术中,通常注意力机制模块的训练是和分类任务一同进行的,通过分类任务的损失反向传导来更新注意力模块的权重。但是,这种权重更新方式依赖于训练数据本身的分布情况,可能会影响分类效果。

技术实现思路

[0004]本公开提供了一种图像分类模型的训练方法、图像分类方法及装置。具体方案如下:
[0005]根据本公开的一方面,提供了一种图像分类模型的训练方法,包括:
[0006]获取第一图像和第二图像,其中,所述第二图像与所述第一图像互为镜像;
[0007]分别对所述第一图像和所述第二图像进行特征提取,以获取所述第一图像对应的第一特征图和所述第二图像对应的第二特征图;
[0008]分别对所述第一特征图和所述第二特征图按通道维度进行池化操作,以获取所述第一特征图对应的第一空间注意力权重图和所述第二特征图对应的第二空间注意力权重图;
[0009]根据所述第一空间注意力权重图与所述第二空间注意力权重图,确定第一约束损失;
[0010]根据所述第一约束损失对图像分类模型进行训练。
[0011]根据本公开的另一方面,提供了一种图像分类方法,包括:
[0012]获取待分类图像;
[0013]将所述待分类图像输入图像分类模型,以获取所述待分类图像对应的预测类别,其中,所述图像分类模型是采用上述实施例所述的方法训练得到的。
[0014]根据本公开的另一方面,提供了一种图像分类模型的训练装置,包括:
[0015]第一获取模块,用于获取第一图像和第二图像,其中,所述第二图像与所述第一图像互为镜像;
[0016]第二获取模块,用于分别对所述第一图像和所述第二图像进行特征提取,以获取所述第一图像对应的第一特征图和所述第二图像对应的第二特征图;
[0017]第三获取模块,用于分别对所述第一特征图和所述第二特征图按通道维度进行池化操作,以获取所述第一特征图对应的第一空间注意力权重图和所述第二特征图对应的第
二空间注意力权重图;
[0018]确定模块,用于根据所述第一空间注意力权重图与所述第二空间注意力权重图,确定第一约束损失;
[0019]训练模块,用于根据所述第一约束损失对图像分类模型进行训练。
[0020]根据本公开的另一方面,提供了一种图像分类装置,包括:
[0021]第一获取模块,用于获取待分类图像;
[0022]第二获取模块,用于将所述待分类图像输入图像分类模型,以获取所述待分类图像对应的预测类别,其中,所述图像分类模型是采用上述实施例所述的图像分类模型的训练方法训练得到的。
[0023]根据本公开的另一方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的方法或能够执行上述另一方面实施例所述的方法。
[0027]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述一方面实施例所述的方法或执行根据上述另一方面实施例所述的方法。
[0028]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述一方面实施例所述方法的步骤或实现上述另一方面实施例所述的方法。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1为本公开一实施例提供的图像分类模型的训练方法的流程示意图;
[0032]图2为本公开另一实施例提供的图像分类模型的训练方法的流程示意图;
[0033]图3为本公开另一实施例提供的图像分类模型的训练方法的流程示意图;
[0034]图4为本公开实施例提供的一种对图像进行空间注意力约束的示意图一;
[0035]图5为本公开另一实施例提供的图像分类模型的训练方法的流程示意图;
[0036]图6为本公开实施例提供的一种对图像进行空间注意力约束的示意图二;
[0037]图7为本公开一实施例提供的图像分类方法的流程示意图;
[0038]图8为本公开一实施例提供的图像分类模型的训练装置的结构示意图;
[0039]图9为本公开一实施例提供的图像分类装置的结构示意图;
[0040]图10是用来实现本公开实施例的图像分类模型的训练方法的电子设备的框图。
具体实施方式
[0041]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]下面参考附图描述本公开实施例的图像分类模型的训练方法、图像分类方法及装置。
[0043]人工智能是研究使用计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的
也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术包括计算机视觉技术、语音识别技术、自然语言处理技术以及深度学习、大数据处理技术、知识图谱技术等几大方向。
[0044]深度学习是机器学习领域中一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
[0045]计算机视觉是一门研究如何使机器“看”的科学,是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
[0046]图1为本公开一实施例提供的图像分类模型的训练方法的流程示意图。
[0047]本公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像分类模型的训练方法,包括:获取第一图像和第二图像,其中,所述第二图像与所述第一图像互为镜像;分别对所述第一图像和所述第二图像进行特征提取,以获取所述第一图像对应的第一特征图和所述第二图像对应的第二特征图;分别对所述第一特征图和所述第二特征图按通道维度进行池化操作,以获取所述第一特征图对应的第一空间注意力权重图和所述第二特征图对应的第二空间注意力权重图;根据所述第一空间注意力权重图与所述第二空间注意力权重图,确定第一约束损失;根据所述第一约束损失对图像分类模型进行训练。2.如权利要求1所述的方法,其中,所述根据所述第一约束损失对图像分类模型进行训练,包括:根据所述第一空间注意力权重图和所述第一特征图,获取所述第一图像对应的第一注意力特征图;对所述第一注意力特征图进行解码,以获取所述第一图像对应的预测类别;根据所述预测类别与所述第一图像的标注类别之间的差异,确定标签损失;根据所述标签损失和所述第一约束损失对所述图像分类模型进行训练。3.如权利要求1所述的方法,其中,所述根据所述第一约束损失对图像分类模型进行训练,包括:在所述第一图像具有标注框的情况下,根据所述标注框生成第三空间注意力权重图;根据所述第一空间注意力权重图和所述第三空间注意力权重图之间的差异,确定第二约束损失;根据所述第一约束损失和所述第二约束损失对所述图像分类模型进行训练。4.如权利要求3所述的方法,其中,所述根据所述标注框生成第三空间注意力权重图,包括:根据所述标注框的长度和宽度,确定高斯分布函数中的标准差;根据所述标注框的中心点坐标,确定所述高斯分布函数中的均值;根据所述标准差和所述均值,利用所述高斯分布函数,确定所述第一图像中各坐标点的权重;根据所述各坐标点的权重,生成所述第三空间注意力权重图。5.权利要求3所述的方法,其中,所述根据所述第一约束损失和所述第二约束损失对所述图像分类模型进行训练,包括:根据所述第一空间注意力权重图和所述第一特征图,获取所述第一图像对应的第一注意力特征图;对所述第一注意力特征图进行解码,以获取所述第一图像对应的预测类别;根据所述预测类别与所述第一图像的标注类别之间的差异,确定标签损失;根据所述标签损失、第一约束损失及所述第二约束损失对所述图像分类模型进行训练。6.如权利要求1所述的方法,其中,所述分别对所述第一特征图和所述第二特征图按通道维度进行池化操作,以获取所述第一特征图对应的第一空间注意力权重图和所述第二特征图对应的第二空间注意力权重图,包括:
分别对所述第一特征图和所述第二特征图按空间维度进行池化操作,以获取所述第一特征图对应的第一通道注意力权重图和所述第二特征图对应的第二通道注意力权重图;根据所述第一通道注意力权重图和所述第一特征图,获取所述第一图像对应的第三注意力特征图;根据所述第二通道注意力权重图和所述第二特征图,获取所述第二图像对应的第四注意力特征图;分别对所述第三注意力特征图和所述第四注意力特征图按通道维度进行池化操作,以获取所述第一空间注意力权重图和所述第二空间注意力权重图。7.如权利要求1所述的方法,其中,所述获取第一图像,包括:获取当前训练阶段的前一训练阶段的模型评价指标及各类别的第一样本数量;根据所述模型评价指标及所述第一样本数量,确定当前训练阶段所述各类别的第二样本数量;根据所述第二样本数量,从所述各类别的样本集中获取所述第一图像。8.如权利要求7所述的方法,其中,所述模型评价指标包括所述各类别中目标类别对应的召回率和精度,所述根据所述模型评价指标及所述第一样本数量,确定当前训练阶段所述各类别的第二样本数量,包括:在所述召回率大于第一阈值且所述精度小于第二阈值的情况下,根据第一预设比例,降低所述目标类别的第一样本数量,以得到所述目标类别的第二样本数量;根据所述第一预设比例和所述目标类别的第一样本数量,增加所述各类别中除所述目标类别外的其他类别的第一样本数量,以得到所述其他类别的第二样本数量。9.如权利要求8所述的方法,还包括:在所述召回率小于第三阈值且所述精度大于第四阈值的情况下,根据第二预设比例,增加所述目标类别的第一样本数量,以得到所述目标类别的第二样本数量;根据所述第二预设比例和所述目标类别的第一样本数量,降低所述其他类别的第一样本数量,以得到所述其他类别的第二样本数量。10.如权利要求1所述的方法,其中,所述获取第一图像,包括:利用当前训练阶段的前一训练阶段得到的图像分类模型,对每个类别对应的样本集中每个样本图像进行类别预测,以获取所述每个样本图像所属预测类别的预测概率;根据所述每个样本图像对应的预测概率,确定所述每个类别的样本图像的预测概率位于各概率区间的数量占比;根据所述数量占比,确定所述各概率区间内样本图像的采样概率;根据所述采样概率在所述样本集中进行采样,以获取所述每个类别的第一图像。11.如权利要求1所述的方法,所述根据所述第一空间注意力权重图与所述第二空间注意力权重图,确定第一约束损失,包括:确定所述第一空间注意力权重图与所述第二空间注意力权重图在空间上的距离;根据所述距离、所述第一空间注意力权重图的高度及宽度,确定所述第一约束损失。12.一种图像分类方法,包括:获取待分类图像;将所述待分类图像输入图像分类模型,以获取所述待分类图像对应的预测类别,其中,
所述图像分类模型是采用权利要求1

11中任一项所述的方法训练得到的。13.一种图像分类模型的训练装置,包括:第一获取模块,用于获取第一图像和第二图像,其中,所述第二图像与所述第一图像互为镜像;第二获取模块,用于分别对所述第一图像和所述第二图像进行特征提取,以获取所述第一图像对应的第一特征图和所述第...

【专利技术属性】
技术研发人员:吕一常战国李理赵鑫
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1