一种图像目标定位和计数模型及其实现方法技术

技术编号：40667250 阅读：2 留言：0更新日期：2024-03-18 19:02

本发明专利技术公开了一种图像目标定位和计数模型的实现方法。制作训练数据集。从一对输入数据中提取目标图像的多尺度特征和单例查询样本的多尺度特征。通过滑窗式匹配方式将查询样本的每一尺度特征逐块滑动计算与目标图像的每一尺度特征的相似度，得到查询样本与目标图像的相似度图M。基于查询样本与目标图像的相似度图M在目标图像中挖掘有可能存在目标物体的位置，生成提议框集合。生成融合特征。根据融合特征在目标图像中预测目标物体的位置边界框与置信度，通过置信度筛选的目标物体的位置边界框才被纳入计数中，得到最终预测的目标图像中的目标物体的位置和数量。本发明专利技术同时实现在图像中对目标物体的定位和计数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于图像目标检测和视觉计数的人工智能模型(例如神经网络)。

技术介绍

1、图像目标检测(object detection)是指找出图像中感兴趣的目标(物体)，并确定它们的类别和位置。

2、视觉计数(visual counting)是一种利用计算机视觉技术对图像、视频中的目标物体进行自动计数的方法。现有视觉计数方法分为两类：特定类别计数和无类别计数。特定类别计数是指对预定义的类别进行计数，例如人群、细胞或汽车等，当转移到其他类别时泛化能力很差，即难以适应新类别的计数需求。无类别计数是指通过用户提供的有限数量的目标样本，对相应目标进行自动计数的方法，具有更广泛的适用性和实际应用前景。

3、现有的无类别目标计数方法大多基于密度图(density map)回归，该类方法的输入查询样本往往为3例，通过对预测出的密度图求和来获得目标数量。计数结果往往不是整数，甚至存在负数情况，计数准确率普遍较低。例如在目标较密集的场景下，该方法所预测出的密度值峰值会聚集在一起，导致后续提取峰值过程中会将某峰值局部领域中的真实目标遗漏，造成计数结果不准确。此外，由于其密度分布的连续性质，该类方法无法提供被计数物体的位置信息，具有极大的模糊性。在实际应用场景中，用户无法得知物体是否被正确计数，从而无法进行后续的修正。

4、视觉计数只能提供用户指定目标物体的数量，无法对目标物体进行定位，这限制了视觉计数的应用。现有将目标定位简单融合进视觉计数框架的方法大多只能对目标进行点级定位，即只能获取目标的中心点位置，不

技术实现思路

1、本专利技术所要解决的技术问题是：如何实现一种图像目标定位和计数模型，使得该模型能够基于单例(one-shot)查询样本(query patch)实现无类别目标定位和计数。

2、为解决上述技术问题，本专利技术提出了一种图像目标定位和计数模型的实现方法，包括如下步骤。步骤s1：制作训练数据集；所述训练数据集包括多对查询样本和目标图像；将全部查询样本分为多个类别，每个查询样本标注有所属的类别；每幅目标图像中标注有对应的查询样本所属类别的目标物体的位置和数量。步骤s2：从一对输入数据中提取目标图像的多尺度特征和单例查询样本的多尺度特征。步骤s3：通过滑窗式匹配方式将查询样本的每一尺度特征逐块滑动计算与目标图像的每一尺度特征的相似度，得到查询样本与目标图像的相似度图m。步骤s4：基于查询样本与目标图像的相似度图m在目标图像中挖掘有可能存在目标物体的位置，也就是初步预测查询样本在目标图像中的潜在位置，生成提议框集合。步骤s5：通过特征对齐将查询样本的多尺度特征映射成查询样本的统一尺度的特征，与目标图像的多尺度特征、查询样本与目标图像的相似度图m和提议框集合一并生成融合特征。步骤s6：根据融合特征在目标图像中预测目标物体的位置边界框与置信度，通过置信度筛选的目标物体的位置边界框才被纳入计数中，得到最终预测的目标图像中的目标物体的位置和数量；使最终预测的目标图像中的目标物体的位置及数量与该单例查询样本在对应的目标图像中的已标注的位置和数量尽可能趋于一致。

3、进一步地，所述步骤s1中，对全部查询样本根据已有类别标注进行聚类；具体为：提取查询样本的类别标签，为每一个类别建立集合，将同类查询样本加入对应的类别集合中，同时与含有该类别目标物体的目标图像建立匹配关联；目标图像与查询样本建立匹配关联的前提条件为：目标图像中存在有该查询样本所属类别的目标物体。

4、进一步地，所述步骤s2中，在同一类别的查询样本中随机挑选一个查询样本，称为单例查询样本；将该单例查询样本以及对应的目标图像作为一对输入数据。

5、进一步地，所述步骤s2中，先从一对输入数据中提取目标图像的多尺度特征和单例查询样本的多尺度特征，然后在第一次提取的多尺度特征的基础上做进一步的特征融合，输出特征融合后的目标图像的多尺度特征和单例查询样本的多尺度特征；第一次提取特征时采用参数共享的方式进行。

6、优选地，所述步骤s2中，第一次提取特征采用一种用于提取图像特征的神经网络实现；第二次提取多尺度特征采用一种用于提取多尺度图像特征的神经网络实现。

7、进一步地，所述步骤s2中，多尺度特征是指有多个不同尺寸的特征；目标图像的多尺度特征中包含的不同尺寸特征的数量与查询样本的多尺度特征中包含的不同尺寸特征的数量相同。

8、进一步地，所述步骤s3具体包括如下子步骤。步骤s31：目标图像的第k个尺度的特征与查询样本的第k个尺度的特征作为输入，k为正整数，是按照多尺度特征中的各个特征的尺寸由大到小排序的第k个特征；将目标图像的第k个尺度的特征分割成多个块，每个块的尺寸等于查询样本的第k个尺度的特征的尺寸；

9、步骤s32：对分割后的目标图像的每一块的特征与查询样本的第k个尺度特征沿通道维度进行归一化处理。步骤s33：将目标图像的每一块的特征分别与查询样本的第k个尺度特征进行匹配，得到目标图像的每一块的特征与单例查询样本的第k个尺度的特征计算出来的相似度图si；所述匹配是指采用逐点相似度计算法，其中si表示目标图像的第k个尺度特征分割后的每一块的特征与单例查询样本的第k个尺度的特征计算出来的相似度图，relu()为激活函数，*表示逐点相乘，|| ||2表示计算l2范数，点表示乘法；步骤s33执行完毕后得到多张相似度图si，数量等于将目标图像的第k个尺度的特征分割成的块的数量。步骤s34：将多张相似度图si按照各个块在目标图像的第k个尺度的特征上的位置拼接在一起，得到完整的目标图像的第k个尺度的特征与单例查询样本的第k个尺度特征的相似度图；对这个完整的相似度图采用双线性插值得到匹配图。重复步骤s31到步骤s34，计算目标图像的各个尺度的特征与查询样本的对应尺度特征的匹配图；步骤s34执行完毕后得到多张匹配图，数量等于目标图像的多尺度特征中包含的不同尺寸特征的数量。步骤s35：将全部匹配图和目标图像的各个尺度的特征沿通道维度拼接，得到查询样本与目标图像的相似度图m。

10、优选地，所述步骤s4中，采用一种用于在图像中对物体进行初步定位的神经网络实现。

11、进一步地，所述步骤s6中，通过两层全连接层分别对目标物体的位置边界框、置信度进行回归预测，并采用l1损失监督目标物体的位置边界框，采用比例保留损失函数监督目标物体的置信度预测。

12、本专利技术还提出了一种图像目标定位和计数模型，包括训练数据制作单元、特征提取单元、相似度图计算单元、初步预测单元、特征对齐与融合单元、最终预测与计数单元。所述训练数据制作本文档来自技高网...

【技术保护点】

1.一种图像目标定位和计数模型的实现方法，其特征是，包括如下步骤；

2.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S1中，对全部查询样本根据已有类别标注进行聚类；具体为：提取查询样本的类别标签，为每一个类别建立集合，将同类查询样本加入对应的类别集合中，同时与含有该类别目标物体的目标图像建立匹配关联；目标图像与查询样本建立匹配关联的前提条件为：目标图像中存在有该查询样本所属类别的目标物体。

3.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S2中，在同一类别的查询样本中随机挑选一个查询样本，称为单例查询样本；将该单例查询样本以及对应的目标图像作为一对输入数据。

4.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S2中，先从一对输入数据中提取目标图像的多尺度特征和单例查询样本的多尺度特征，然后在第一次提取的多尺度特征的基础上做进一步的特征融合，输出特征融合后的目标图像的多尺度特征和单例查询样本的多尺度特征；第一次提取特征时采用参数共享的方式进行。

5.根据

6.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S2中，多尺度特征是指有多个不同尺寸的特征；目标图像的多尺度特征中包含的不同尺寸特征的数量与查询样本的多尺度特征中包含的不同尺寸特征的数量相同。

7.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S3具体包括如下子步骤；

8.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S4中，采用一种用于在图像中对物体进行初步定位的神经网络实现。

9.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤S6中，通过两层全连接层分别对目标物体的位置边界框、置信度进行回归预测，并采用L1损失监督目标物体的位置边界框，采用比例保留损失函数监督目标物体的置信度预测。

10.一种图像目标定位和计数模型，其特征是，包括训练数据制作单元、特征提取单元、相似度图计算单元、初步预测单元、特征对齐与融合单元、最终预测与计数单元；

...

【技术特征摘要】

1.一种图像目标定位和计数模型的实现方法，其特征是，包括如下步骤；

2.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤s1中，对全部查询样本根据已有类别标注进行聚类；具体为：提取查询样本的类别标签，为每一个类别建立集合，将同类查询样本加入对应的类别集合中，同时与含有该类别目标物体的目标图像建立匹配关联；目标图像与查询样本建立匹配关联的前提条件为：目标图像中存在有该查询样本所属类别的目标物体。

3.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤s2中，在同一类别的查询样本中随机挑选一个查询样本，称为单例查询样本；将该单例查询样本以及对应的目标图像作为一对输入数据。

4.根据权利要求1所述的图像目标定位和计数模型的实现方法，其特征是，所述步骤s2中，先从一对输入数据中提取目标图像的多尺度特征和单例查询样本的多尺度特征，然后在第一次提取的多尺度特征的基础上做进一步的特征融合，输出特征融合后的目标图像的多尺度特征和单例查询样本的多尺度特征；第一次提取特征时采用参数共享的方式进行。

5.根据权利要求4所述的图像目标定位和计数模型的实现方法，其特征是...

【专利技术属性】
技术研发人员：彭中星，顾潇蒙，郭丰俊，徐树公，丁凯，龙腾，镇立新，
申请(专利权)人：上海合合信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人