一种物体识别方法、装置、设备及存储介质制造方法及图纸

技术编号：25837183 阅读：27 留言：0更新日期：2020-10-02 14:17

本发明专利技术实施例公开了一种物体识别方法、装置、设备及存储介质。该方法包括：获取待识别图像，其中，待识别图像包括待识别的目标物体；将待识别图像输入至已训练完成的物体识别模型中，根据物体识别模型的输出结果识别出目标物体；其中，物体识别模型根据分类模块和学习模块训练得到，且由分类模块构成，分类模块基于卷积神经网络得到，学习模块包括物体轮廓学习模块和/或空间上下文学习模块。本发明专利技术实施例的技术方案，通过参与到模型训练过程中的学习模块增强了分类模块对物体轮廓信息和/或物体空间结构的理解，且因学习模块未参与到后续的模型部署中，这就使得在部署相同大小的物体识别模型的情况下，可以显著提高物体识别的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种物体识别方法、装置、设备及存储介质
本专利技术实施例涉及图像处理
，尤其涉及一种物体识别方法、装置、设备及存储介质。
技术介绍
物体识别(ObjectRecognition)是多媒体和计算机视觉社区的一大基本问题，其可以用于通用物体识别、精细类目物体识别、物体定位等等。随着卷积神经网络(ConvolutionalNeuralNetworks，CNN)的发展和数据量的扩充，物体识别的性能取得了惊人的飞速进展。然而，由于物体的形变、外观及图像背景的干扰，精细类目上的物体识别仍然是具有挑战性的，比如，『蝴蝶』的分类、『鸟』的分类、『商品』的分类、『车』的分类等等。为了进一步提升精细类目上的物体识别的性能，研究人员提出了多种方案，这些方案主要可以分为两类：(a)基于物体检测和物体分类的两步运算系统，其基于物体检测模型区分图像中的目标物体与背景，再基于物体分类模型对目标物体进行分类；(b)基于注意力模型的系统，其基于大量额外参数来学习目标物体在图像中的注意力得分，由此区分图像中的目标物体与背景，或者对目标物体的各个部分进行区分。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下技术问题：方案(a)需要大量的有标注的目标物体在图像中的检测框(boundingbox)来训练物体检测模型，这类数据的构造成本极大，很难推广到大规模的物体识别任务中；而且，两步运算(物体检测+物体分类)的系统架构使其在实际应用和实际部署中存在很大的难度和风险，且在物体识别过程中的计算效率较低。方案(b)中大量额外参数容...

【技术保护点】
1.一种物体识别方法，其特征在于，包括：/n获取待识别图像，其中，所述待识别图像包括待识别的目标物体；/n将所述待识别图像输入至已训练完成的物体识别模型中，根据所述物体识别模型的输出结果识别出所述目标物体；/n其中，所述物体识别模型根据分类模块和学习模块训练得到，且由所述分类模块构成，所述分类模块基于卷积神经网络得到，所述学习模块包括物体轮廓学习模块和/或空间上下文学习模块。/n

【技术特征摘要】
1.一种物体识别方法，其特征在于，包括：
获取待识别图像，其中，所述待识别图像包括待识别的目标物体；
将所述待识别图像输入至已训练完成的物体识别模型中，根据所述物体识别模型的输出结果识别出所述目标物体；
其中，所述物体识别模型根据分类模块和学习模块训练得到，且由所述分类模块构成，所述分类模块基于卷积神经网络得到，所述学习模块包括物体轮廓学习模块和/或空间上下文学习模块。

2.根据权利要求1所述的方法，其特征在于，还包括：
获取历史图像和所述历史图像中已识别的历史物体，将所述历史图像和所述历史物体作为一组训练样本；
基于多个所述训练样本对原始神经网络模型进行训练，得到所述物体识别模型，其中，多个所述训练样本中的所述历史物体属于同一类别，所述原始神经网络模型包括所述分类模块和所述学习模块。

3.根据权利要求2所述的方法，其特征在于，所述基于多个所述训练样本对原始神经网络模型进行训练，包括：
若所述学习模块包括所述物体轮廓学习模块，将多个所述历史图像输入至所述分类模块中，分别得到每个所述历史图像的视觉特征；
将多个所述视觉特征输入至所述物体轮廓学习模块中，得到所述物体轮廓学习模块输出的相似度梯度，并将所述相似度梯度反向输入至所述分类模块中，调节所述分类模块的网络参数。

4.根据权利要求2所述的方法，其特征在于，所述基于多个所述训练样本对原始神经网络模型进行训练，包括：
若所述学习模块包括所述空间上下文学习模块，将多个所述历史图像中的主历史图像输入至所述分类模块中，得到主视觉特征；
将所述主视觉特征输入至所述空间上下文学习模块中，得到所述空间上下文学习模块输出的空间梯度，并将所述空间梯度反向输入至所述分类模块中，调节所述分类模块的网络参数。

5.根据权利要求4所述的方法，其特征在于，所述若所述学习模块包括所述空间上下文学习模块，将多个所述历史图像中的主历史图像输入至所述分类模块中，得到主视觉特征，包括：
若所述学习模块包括所述物体轮廓学习模块和所述空间上下文学习模块，将多个所述训练样本输入至所述分类模块中，分别得到每个所述历史图像的视觉特征，所述视觉特征包括多个所述历史图像中的主历史图像的主视觉特征；
相应的，所述将所述主视觉特征输入至所述空间上下文学习模块中...

【专利技术属性】
技术研发人员：白亚龙，周默涵，张炜，梅涛，
申请(专利权)人：北京沃东天骏信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人