训练图像识别模型的方法、图像识别方法及装置制造方法及图纸

技术编号：39178569 阅读：10 留言：0更新日期：2023-10-27 08:26

本说明书实施例提供了一种训练图像识别模型的方法、图像识别方法及装置。本说明书实施例基于多层级的标签关系树，通过层级特征交互网络对各类别层级上的特征进行交互，并基于图像样本在各类别层级上的特征表示，得到图像样本属于标签关系树中各类别的概率，以及利用图像样本在目标类别层级上的特征表示，得到图像样本属于目标类别层级上各类别的概率。通过最大化图像样本属于被标注类别标签以及与被标注类别标签具有继承关系的上层级类别和/或下层级类别的概率来训练图像识别模型。这种训练方式有效利用具有不同层级的类别标签的图像样本进行学习，传递类别层级之间的知识，降低对于目标类别层级的图像样本的质量依赖，提高图像识别的鲁棒性。高图像识别的鲁棒性。高图像识别的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
训练图像识别模型的方法、图像识别方法及装置

[0001]本说明书一个或多个实施例涉及计算机视觉
，尤其涉及一种训练图像识别模型的方法、图像识别方法及装置。

技术介绍

[0002]细粒度图像识别是计算机视觉领域的基础研究课题，旨在对某一传统语义类别下细粒度级别的不同子类类别进行视觉识别。例如，识别狗的不同子类，识别鸟的不同子类，识别汽车的不同子类，等等。
[0003]目前细粒度图像识别模型通常是基于有监督式的深度学习训练得到的。这就需要预先构建大规模、高质量的训练数据，训练数据通常需要对图像样本进行细粒度子类的类别标签标注。这就需要对训练数据中的图像质量和标注人员的背景知识有很高的要求。例如对于鸟类的不同子类的图像识别时，如果关键区域被遮挡、图像分辨率低或者图像模糊等质量因素会干扰标注人员对于细粒度类别的识别。再例如，拥有一般知识的标注人员可能可以识别出信天翁，但需要借助鸟类专家的知识才能够辨认黑脚信天翁和黑背信天翁。这种对于细粒度子类标签质量的依赖造成图像识别的鲁棒性较差。

技术实现思路

[0004]有鉴于此，本说明书一个或多个实施例公开了一种训练图像识别模型的方法、图像识别方法及装置，以便于提高图像识别的鲁棒性。
[0005]根据第一方面，本说明书实施例提供了一种训练图像识别模型的方法，所述方法包括：
[0006]获取包括多个训练样本的训练数据，所述训练样本包括图像样本以及该图像样本在标签关系树中对应的类别标签，所述标签关系树包括多层级的类别标签，所述训练数据中至少包括...

【技术保护点】

【技术特征摘要】
1.一种训练图像识别模型的方法，其特征在于，所述方法包括：获取包括多个训练样本的训练数据，所述训练样本包括图像样本以及该图像样本在标签关系树中对应的类别标签，所述标签关系树包括多层级的类别标签，所述训练数据中至少包括被标注有目标类别层级上的类别标签的图像样本；利用所述训练数据训练层级分类模型，所述层级分类模型包括主干特征提取网络、层级特征交互网络、第一分类网络和第二分类网络；所述主干特征提取网络用以从输入的图像样本中提取第一特征表示；所述层级特征交互网络用以利用所述第一特征表示提取图像样本在各类别层级上的第二特征表示，并利用所述图像样本在各类别层级上的第二特征表示进行交互得到图像样本在各类别层级上的第三特征表示，其中，各类别层级分别与所述标签关系树中的层级对应；所述第一分类网络用以利用所述图像样本在各类别层级上的第三特征表示，得到图像样本属于所述标签关系树中各类别的概率；所述第二分类网络用以利用所述图像样本在目标类别层级上的第三特征表示，得到图像样本属于所述目标类别层级上各类别的概率；所述训练的目标包括第一训练目标，所述第一训练目标为最大化图像样本属于被标注类别标签以及与被标注类别标签具有继承关系的上层级类别和/或下层级类别的概率；利用训练得到的层级分类模型中的主干特征提取网络、层级特征交互网络和第二分类网络，得到图像识别模型。2.根据权利要求1所述的方法，其特征在于，所述层级特征交互网络包括N个类别层级对应的特征提取层和特征交互层，所述N为所述标签关系树包含的层级数量；所述特征提取层用以利用所述第一特征表示提取图像样本在本特征提取层所对应类别层级上的第二特征表示；所述特征交互层用以利用图像样本在第一层类别层级上的第二特征表示，得到图像样本在第一层类别层级上的第三特征表示；对于除第一层类别层级之外的其他类别层级，将图像样本在本类别层级上的第二特征表示和上层类别层级上的第二特征表示进行融合，得到图像样本在本类别层级上的第三特征表示。3.根据权利要求1所述的方法，其特征在于，所述目标类别层级包括所述标签关系树的最底层层级。4.根据权利要求1所述的方法，其特征在于，所述训练的目标还包括第二训练目标，所述第二训练目标为最小化图像样本的预测类别与该图像样本被标注的目标类别层级上的类别标签之间的差异，所述图像样本的预测类别是依据所述第二分类网络针对该图像样本输出的概率得到的。5.根据权利要求4所述的方法，其特征在于，在所述训练的每一轮迭代中，利用复合损失函数的取值，更新所述图像识别模型的模型参数，直至满足预设的训练结束条件；若图像样本被标注有所述目标类别层级上的类别标签，则采用的复合损失函数由第一损失函数和第二损失函数确定；若图像样本未被标注有所述目标类别层级上的类别标签，则采用的复合损失函数由第一损失函数确定；其中，所述第一损失函数是利用所述第一训练目标预先构建的，所述第二损失函数是利用所述第二训练目标预先构建的。6.根据权利要求5所述的方法，其特征在于，所述第一损失函数是利用图像样本的最大似然边缘概率得到的，所述图像样本的最大似然边缘概率由图像样本属于所述标签关系树
中各类别的概率、图像样本对应的标签向量以及所述标签关系树的约束向量的乘积得到；其中所述标签向量指示图像样本是否具有所述标签关系树中的各类别标签；所述标签关系树的约束向量约束所述标签关系树中各类别标签之间的合法取值。7.一种图像识别的方法，其特征在于，所述方法包括：获取待识别图像；利用图像识别模型对所述待识别图像进行图像识别，其中所述图像识别模型包括主干特征提取网络、层级特征交互网络和第二分类网络；所述主干特征提取网络用以从所述待识别图像中提取第一特征表示；所述层级特征交互网络用以利用所述第一特征表示提取所述待识别图像在各类别层级上的第二特征表示，并利用所述待识别图像在各类别层级上的第二特征表示进行交互得到所述待识别图像在各类别层级上的第三特征表示，其中，各类别层级分别...

【专利技术属性】
技术研发人员：陈璟洲，刘健，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人