图像识别方法、训练图像识别模型的方法及对应装置制造方法及图纸

技术编号:37764539 阅读:20 留言:0更新日期:2023-06-06 13:23
本说明书实施例提供了一种图像识别方法、训练图像识别模型的方法及对应装置。主要技术方案包括:获取待识别图像;利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。本申请能够提高图像识别在细粒度图像类别上的识别准确性。高图像识别在细粒度图像类别上的识别准确性。高图像识别在细粒度图像类别上的识别准确性。

【技术实现步骤摘要】
图像识别方法、训练图像识别模型的方法及对应装置


[0001]本说明书一个或多个实施例涉及图像处理
,尤其涉及一种图像识别方法、训练图像识别模型的方法及对应装置。

技术介绍

[0002]随着图像处理技术的飞速发展,推动了图像识别技术的产生并逐渐成为人工智能领域中重要的组成部分。所谓图像识别是指利用计算机对图像进行处理和分析,以识别图像中包含的目标类型的技术。目前图像识别已经被广泛应用到各个领域中,例如安全领域中的人脸识别、风控领域中的风险人物识别、交通领域中的交通标识识别、自动驾驶领域中的障碍物识别等等。
[0003]目前业界越来越多的提出使用深度学习方法进行图像识别,但目前基于深度学习方法进行的图像识别对于细粒度的图像类别难以区分,从而造成识别准确性较差。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例公开了一种图像识别方法、训练图像识别模型的方法及装置,用以提高图像识别在细粒度图像类别上的识别准确性。
[0005]根据第一方面,本公开提供了一种图像识别方法,所述方法包括:
[0006]获取待识别图像;
[0007]利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。r/>[0008]根据本申请实施例中一可实现的方式,利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别包括:
[0009]利用所述待识别图像的融合特征表示与各图像类别的属性原型之间的距离,得到所述待识别图像对应的图像类别;
[0010]其中所述图像类别的属性原型是利用该图像类别的支持图像的融合特征表示得到的。
[0011]根据本申请实施例中一可实现的方式,所述方法还包括:针对各图像类别分别执行:
[0012]获取该图像类别的支持图像;
[0013]针对各支持图像,分别提取支持图像的视觉特征表示,并利用该支持图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到该支持图像的融合特征表示,该融合特征表示包括所述支持图像在各属性词上的置信度分布;
[0014]利用该图像类别的各支持图像对应的融合特征表示,得到该图像类别的融合特征
表示作为该图像类别的属性原型。
[0015]根据本申请实施例中一可实现的方式,所述待识别图像的视觉特征表示包括所述待识别图像中各图块的视觉特征表示;
[0016]利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配包括:
[0017]分别计算各图块的视觉特征表示与属性词库中各属性词的特征表示之间的相似度,得到各属性词对应的相似度向量;
[0018]分别针对各属性词执行:将属性词对应的相似度向量与所述待识别图像的视觉特征表示进行交叉注意力处理,得到该属性词的视觉表示;利用该属性词的特征表示和视觉表示,得到所述待识别图像在该属性词上的置信度;
[0019]利用所述待识别图像在各属性词上的置信度,得到所述待识别图像的融合特征表示。
[0020]根据本申请实施例中一可实现的方式,所述图像类别包括不同的障碍物类别,或者不同的飞行器类别,或者不同的商品类别,或者不同的人物类别。
[0021]根据第二方面,提供了一种训练图像识别模型的方法,所述方法包括:
[0022]获取包含多个训练样本的训练数据,所述训练样本包括图像样本及其对应的图像类别标签;
[0023]利用所述训练数据训练图像识别模型,其中所述图像识别模型提取输入的图像样本的视觉特征表示;利用图像样本的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到图像样本的融合特征表示,该融合特征表示包括图像样本在各属性词上的置信度分布;利用图像样本的融合特征表示预测图像样本对应的图像类别;所述训练的目标包括:最小化所述图像识别模型预测的图像样本对应的图像类别与图像类别标签之间的差异。
[0024]根据本申请实施例中一可实现的方式,利用图像样本的融合特征表示预测图像样本对应的图像类别包括:
[0025]利用图像样本的融合特征表示与各图像类别的属性原型之间的距离,得到图像样本对应的图像类别;
[0026]其中所述图像类别的属性原型是利用该图像类别的支持图像的融合特征表示得到的。
[0027]根据本申请实施例中一可实现的方式,所述方法还包括:针对各图像类别分别执行:
[0028]获取该图像类别的支持图像;
[0029]针对各支持图像,分别提取支持图像的视觉特征表示,并利用该支持图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到该支持图像的融合特征表示,该融合特征表示包括所述支持图像在各属性词上的置信度分布;
[0030]利用该图像类别的各支持图像对应的融合特征表示,得到该图像类别的融合特征表示作为该图像类别的属性原型。
[0031]根据本申请实施例中一可实现的方式,所述图像样本的视觉特征表示包括图像样本中各图块的视觉特征表示;
[0032]所述利用图像样本的视觉特征表示与属性词库中各属性词的特征表示进行匹配包括:
[0033]分别计算各图块的视觉特征表示与属性词库中各属性词的特征表示之间的相似度,得到各属性词对应的相似度向量;
[0034]分别针对各属性词执行:将属性词对应的相似度向量与图像样本的视觉特征表示进行交叉注意力处理,得到该属性词的视觉表示;利用该属性词的特征表示和视觉表示,得到图像样本在该属性词上的置信度;
[0035]利用图像样本在各属性词上的置信度,得到图像样本的融合特征表示。
[0036]根据本申请实施例中一可实现的方式,所述训练样本还包括图像样本对应的属性词标签;
[0037]所述训练目标还包括:最小化利用图像样本的融合特征表示预测得到的目标属性词与该图像样本对应的属性词标签之间的差异。
[0038]根据第三方面,提供了一种图像识别装置,所述装置包括:
[0039]图像获取单元,被配置为获取待识别图像;
[0040]类别预测单元,被配置为利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。
[0041]根据第四方面,提供了一种训练图像识别模型的装置,所述装置包括:
[0042]样本获取单元,被配置为获取包含多个训练样本的训练数据,所述训练样本包括图像样本及其对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像识别方法,其特征在于,所述方法包括:获取待识别图像;利用图像识别模型确定所述待识别图像对应的图像类别;其中,所述图像识别模型提取所述待识别图像的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到所述待识别图像的融合特征表示,该融合特征表示包括所述待识别图像在各属性词上的置信度分布;利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别。2.根据权利要求1所述的方法,其特征在于,利用所述待识别图像的融合特征表示预测所述待识别图像对应的图像类别包括:利用所述待识别图像的融合特征表示与各图像类别的属性原型之间的距离,得到所述待识别图像对应的图像类别;其中所述图像类别的属性原型是利用该图像类别的支持图像的融合特征表示得到的。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对各图像类别分别执行:获取该图像类别的支持图像;针对各支持图像,分别提取支持图像的视觉特征表示,并利用该支持图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到该支持图像的融合特征表示,该融合特征表示包括所述支持图像在各属性词上的置信度分布;利用该图像类别的各支持图像对应的融合特征表示,得到该图像类别的融合特征表示作为该图像类别的属性原型。4.根据权利要求1所述的方法,其特征在于,所述待识别图像的视觉特征表示包括所述待识别图像中各图块的视觉特征表示;利用所述待识别图像的视觉特征表示与属性词库中各属性词的特征表示进行匹配包括:分别计算各图块的视觉特征表示与属性词库中各属性词的特征表示之间的相似度,得到各属性词对应的相似度向量;分别针对各属性词执行:将属性词对应的相似度向量与所述待识别图像的视觉特征表示进行交叉注意力处理,得到该属性词的视觉表示;利用该属性词的特征表示和视觉表示,得到所述待识别图像在该属性词上的置信度;利用所述待识别图像在各属性词上的置信度,得到所述待识别图像的融合特征表示。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述图像类别包括不同的障碍物类别,或者不同的飞行器类别,或者不同的商品类别,或者不同的人物类别。6.一种训练图像识别模型的方法,其特征在于,所述方法包括:获取包含多个训练样本的训练数据,所述训练样本包括图像样本及其对应的图像类别标签;利用所述训练数据训练图像识别模型,其中所述图像识别模型提取输入的图像样本的视觉特征表示;利用图像样本的视觉特征表示与属性词库中各属性词的特征表示进行匹配,得到图像样本的融合特征表示,该融合特征表示包括图像样本在各属性词上的置信度分布;利用图像样本的融合特征表示预测图像样本对应的图像类别;所述训练的目标包括:
最小化所述图像识别模型预测的图像样本对应的图像类别与图像类别标签之间的差异。7.根据权利要求6所述的方法,其特征在于,利用图像样本的融合特征表示预测图像样本对应的图像类别包括:利用图像样本的融合特征表示与各图像类别的属性原型之间的距离,得到图像样本对应的图像类别;其中...

【专利技术属性】
技术研发人员:陈昊星顾章轩兰钧孟昌华王维强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1