一种图像多类别识别方法及装置制造方法及图纸

技术编号：40055388 阅读：5 留言：0更新日期：2024-01-16 21:51

本发明专利技术公开了一种图像多类别识别方法及装置，所述方法包括以下步骤：训练目标检测模型及图像相似度模型；确定需要分类的类别并进行相应的配置；获取待分类的图像；通过目标检测识别图像中主要目标的位置及类别；将检测出的主要目标进行截取，对图像进行纠偏并用相似度模型提取图像特征，并与已知分类的特征依次进行对比；对比结果中概率最高的类别与目标检测结果组成最终类别。本发明专利技术提供的图像多类别识别方法及装置在有限多的数据量且需要分类的类别很多的情况下，实现较高精度的图像识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别领域，特别是涉及一种图像多类别识别方法及装置。

技术介绍

1、像识别是计算机视觉中应用最广泛的技术之一，图像识别通常是指输入图像，判断图像中内容的类别，具体为以图像数据及其对应的类别标签组成的数据集训练图像识别模型。

2、然而，图像识别往往面对两个问题：一方面是真实应用场景的数据难以获取；另一方面是随着需要分类的类别数量增多，所训练出的模型精度将下降，需求的数据量也大幅增加。

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供一种图像多类别识别方法及装置，在有限多的数据量且需要分类的类别很多的情况下，实现较高精度的图像识别。

2、本专利技术的目的是通过以下技术方案来实现的：

3、一种图像多类别识别方法，包括以下步骤：

4、训练目标检测模型及图像相似度模型

5、确定需要分类的类别并进行相应的配置；

6、所述确定需要分类的类别并进行相应的配置包括：

7、预先确定所有需要分类的类别，并且每一类找到至少一张包含主要目标的图片，该图片通过相似度模型的特征抽取后，将抽取后得到的特征向量存储起来，并将该向量与类别对应，所述主要目标是指类别的唯一标识，如品牌logo。

8、获取待分类的图像；

9、训练目标检测模型并通过目标检测识别图像中主要目标的位置及类别，将目标检测模型识别到的类别作为一级分类；

10、由于需要分类的类别过多，例如800种，仅用

11、训练图像相似度模型，将识别出的主要目标进行截取，对图像进行纠偏并用相似度模型提取图像特征，并与已知分类的特征依次进行对比：

12、所述对图像进行纠偏，采用霍夫变换实现，所述霍夫变换是一种利用图像几何变换的方法，通过检测图像中的形状或线条，将其映射到另一个空间中，从而实现对图像的纠偏。

13、图片纠偏非常必要，在实际应用中，由于我们待分类图像的唯一标识是从图片中截取的结果，因此图像会有不同程度的旋转，将图像纠偏会一定程度提高相似度对比的准确率；使用相似度模型进行特征抽取是指我们将会用训练一个相似度模型，并从相似度模型中抽取部分层作为特征提取工具，具体的训练方法以及模型层的选择将在后面提到；特征抽取的结果为一个多维向量，且已知类别的多维向量已经被存储，因此将抽取结果与存储的多维向量进行对比即可，具体的对比方法包括但不限于余弦相似度、欧氏距离，余弦相似度的公式为：

14、

15、式子中的x代表待分类图像提取的向量，y代表已知类别向量，欧氏距离的公式如下：

16、

17、式子中的x代表待分类图像提取的向量与已知类别向量之差，本方法对具体的对比方法不做限定。

18、将对比结果中概率最高的类别作为二级分类，与一级分类组成最终类别。

19、所述对比结果中概率最高的类别通过如下方式得到：

20、将图像依次与已存储的唯一标识依次进行对比，以余弦相似度为评判标准，认为余弦相似度最高的类别即为概率最高的类别，也就是最终的二级分类。以手机为例，最终的结果为某品牌（二级分类）手机（一级分类）；

21、进一步地，所述目标检测通过目标检测模型实现，目标检测模型训练选用yolov5模型，目标检测模型训练过程：

22、确定需要进行划分的二级类别，即最终需要识别的类别；

23、将二级类别进行合并组成一级类别，例如将某品牌的手机（二级分类）与另一个品牌的手机（二级分类）合并为手机（一级分类），将所有类别中的唯一标识作为额外类别，例如品牌logo；

24、数据标注，使用矩形锚框对数据集中的一级类别及唯一标识类别进行标注；

25、进行目标检测模型训练，将数据集图像作为模型的输入、将图像中目标锚框的坐标及其对应的类别作为标签，本申请可以基于yolov5官方提供的基于coco数据集的预训练模型进行迁移学习，其中coco数据集是一个大规模的图像数据集，主要用于图像检测、语义分割和图像标题生成等任务。它包含超过330k张图像，其中有220k张带有标注的图像，以及150万个目标,是当前最流行的图像识别数据集之一。具体训练过程为：加载官方提供的预训练模型，由于模型特征提取的通用性，冻结模型权重的特征提取层，仅对回归层权重进行迭代训练100轮，之后解放特征提取层权重，对整体权重进行迭代训练100轮，训练过程使用adam优化器，其中adam优化器是一种自适应优化算法，主要用于训练神经网络和其他机器学习模型。它结合了自适应学习率和动量方法，能够有效地调整学习率并在训练过程中自适应地调整参数更新的速度；

26、测试模型精度并进行模型优化，对精度较低的类别进行增量训练，在上一步得出的模型基础上进行迁移学习，具体为：增加精度较低类别的数据，依次进行标注，与原数据集合并，并在上一步训练出模型的基础上进行模型训练，增量训练可直接对整体模型权重进行调整，直至整体精度符合要求。

27、所述图像相似度模型训练过程包括：

28、使用目标检测模型制作数据集，即使用目标检测对数据集图像进行处理；将图片中的物品位置、一级分类、唯一标识等检测出来，并进行标记，已标注的数据可直接根据标注信息进行截取；然后通过图像中的坐标截取出来，并通过唯一标识进行划分；

29、将唯一标识类别图像截取出来制作成新的数据集，并根据原图目标的二级分类进行划分，将数据集中每个唯一标识对应的二级分类；

30、图像相似度模型构建，主要内容为使用并联的分类模型xception并去除回归层的孪生网络，依次输入两张唯一标识图像，将两支模型的输出合并处理并进行回归，使用余弦相似度作为模型输出；并联的两个模型共享权重，即在参数更新的过程中，两个模型的权重完全相等，将两个模型的输出层进行相似度对比，例如使用余弦相似度，在后续的相似度对比应该也使用余弦相似度对比，且由于余弦相似度的取值范围为-1到1，应该对余弦相似度进行归一化处理。优选地，孪生网络中的特征提取部分，我们使用迁移学习的方式进行模型训练，在基于imagenet的数据集训练出的预训练模型上进行迁移学习，但是，由于xception为分类模型，因此，我们需要去掉xception的回归层，只保留核心的特征处理层，并在模型的最后添加池化层，池化方法包括但不限于最大池化、平均池化，本方法对池化方法不做具体限定。

31、对于任意两张输入图像，当其属于相同二级分类时时，将对应的标签设置为1，反之设置为0。

<本文档来自技高网...

【技术保护点】

1.一种图像多类别识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述训练目标检测模型包括：

3.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述确定需要分类的类别并进行相应的配置包括：

4.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述对图像进行纠偏，采用霍夫变换实现，所述霍夫变换是一种利用图像几何变换的方法，通过检测图像中的形状或线条，将其映射到另一个空间中，从而实现对图像的纠偏。

5.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述目标检测包括：

6.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述对识别出的唯一标识进行截取，对图像进行纠偏并用图像相似度模型提取图像特征，并与已知分类的特征依次进行对比包括：

7.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述与已知分类的特征依次进行对比的方法包括余弦相似度或欧氏距离。

8.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所

9.一种图像多类别识别装置，采用权利要求1~8中任意一项所述的方法，其特征在于：包括：

...

【技术特征摘要】

1.一种图像多类别识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述训练目标检测模型包括：

3.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述确定需要分类的类别并进行相应的配置包括：

5.根据权利要求1所述的一种图像多类别识别方法，其特征在于：所述目标检测...

【专利技术属性】
技术研发人员：陈翔宇，朱雅都，张迪勇，黄尚强，郑佳勇，方卫洪，魏明欣，席力凡，陈曦，范红霞，李丹，
申请(专利权)人：同方赛威讯信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人