当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于自适应智能匹配的宽视场高分辨多对象检测方法技术

技术编号:37791345 阅读:10 留言:0更新日期:2023-06-09 09:21
本发明专利技术公开了一种基于自适应智能匹配的宽视场高分辨多对象检测方法,该方法包括:获取包含行人的原始图像并构建目标检测网络模型;将原始图像输入至骨干网络进行特征提取得到深层语义特征;利用预设的增强方法对深层语义特征进行敏感度增强得到目标边界的特征增强结果;将特征增强结果分别输入至多个检测头,以基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果;其中,表征的行人边界框,包括利用行人边界框的左边界和上边界对行人左上角关键点进行边界定位,以及右边界和下边界对行人右下角关键点进边界定位。本发明专利技术可有效提升十亿像素宽视场高分辨图像中行人自动检测任务的精度。度。度。

【技术实现步骤摘要】
一种基于自适应智能匹配的宽视场高分辨多对象检测方法


[0001]本专利技术涉及多对象检测
,特别是涉及一种基于自适应智能匹配的宽视场高分辨多对象检测方法。

技术介绍

[0002]现有的行人检测方法多数为基于中心点检测器的优化变体,此类方法的建模过程多以物体中心点为参考,然后直接通过距离回归得到物体的长、宽。还有基于人体部分的检测方法,先分别检测行人的头部、手部、腿部等,然后通过适当的方法聚合为最终的检测结果。
[0003]十亿像素场景行人有各种各样的姿势,一个人的包围框的中心点可能落在背景区域,且易出现遮挡,即中心点视觉模式不稳定;而且一个准确的中心点需要四个边界共同定位,自由度较高,因此基于中心点的检测方法鲁棒性和精度受到限制。大空间范围场景下,与相机不同远近距离处的行人尺度变化剧烈,直接回归边界框的长和宽的检测器会受到长距离回归误差的影响,甚至训练中影响基于锚框的检测器对正样本的判定,同时最后检测框的质量也会受到影响。

技术实现思路

[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]本专利技术的目的在于提供一种基于自适应智能匹配的宽视场高分辨多对象检测方法,提升了十亿像素宽视场高分辨图像中多对象行人自动检测的精度,有效应对大空间范围场景行人多姿态、遮挡时有发生、人群密集、成人孩童不同情况下的检测。将距离回归与最终检测框的质量解耦,有效解决长距离回归对最终检测框的质量影响。提出了一种简单有效的自适应角点匹配策略,通过为每个角点设计行人身体形状编码来为角点匹配提供可靠的指导信息,从而提高角点匹配可信度。
[0006]本专利技术的另一个目的在于提出一种基于自适应智能匹配的宽视场高分辨多对象检测系统。
[0007]为达上述目的,本专利技术一方面提出一种基于自适应智能匹配的宽视场高分辨多对象检测方法,包括:
[0008]获取包含行人的原始图像并构建目标检测网络模型;其中,所述目标检测网络模型,包括骨干网络和多个检测头;
[0009]将所述原始图像输入至所述骨干网络进行特征提取得到深层语义特征;
[0010]利用预设的增强方法对所述深层语义特征进行敏感度增强得到目标边界的特征增强结果;
[0011]将所述特征增强结果分别输入至所述多个检测头,以基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果;其中,所述表征的行人边界框,包括利用行人边界框的左边界和上边界对行人左上角关键点进行边界定位,以
及右边界和下边界对行人右下角关键点进边界定位。
[0012]另外,根据本专利技术上述实施例的基于自适应智能匹配的宽视场高分辨多对象检测方法还可以具有以下附加的技术特征:
[0013]进一步地,在所述将所述原始图像输入至所述骨干网络之前,所述方法,还包括:
[0014]对所述原始图像进行降采样得到降采样图像;
[0015]利用预设尺寸的滑窗将所述降采样图像进行裁剪得到预设尺寸的切片图像。
[0016]进一步地,述基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果,包括:
[0017]利用第一检测头预测行人边界框的左上角关键点的位置热力图和利用第三检测头预测行人边界框的右下角关键点的位置热力图以得到所述关键点预测结果;
[0018]利用第二检测头回归对应左上角关键点的人体形状编码集合和利用第四检测头回归对应右下角关键点的人体形状编码集合以得到所述回归集合预测结果。
[0019]进一步地,将所述左上角关键点或所述右下角关键点映射为高斯衰减的圆形区域,并得到对应的所述位置热力图的损失函数:
[0020][0021]其中,N是当前图像中行人的总数,p
xy
是热力图上坐标为(x,y)处关键点的真值,取值范围0

1,p`
xy
是对应位置的网络输出预测值,α是调节难易样本权重的超参数,β是调节距离衰减项的权重的超参数。
[0022]进一步地,所述目标检测网络模型的优化目标从单段长距离回归转变为回归集合,则对应的损失函数:
[0023][0024]其中,N是当前图像中行人的数量,n是一个回归集合中包含的元素个数,w

k,i
是第k个目标的回归集合中第i个回归元素的网络输出预测值,w
k,i
是对应的回归元素的真值。
[0025]进一步地,所述方法还包括:
[0026]热力图解码:利用sigmoid函数对位置热力图进行激活操作,激活后使用最大值池化对位置热力图进行处理,并获取每个位置热力图上置信度大于预设阈值的关键点,以得到多个左上角关键点和多个右下角关键点;以及,
[0027]人体形状解码:将所述回归集合用指数函数映射到原空间,基于左上角关键点的回归集合的元素和对应的缩放因子计算当前集合回归元素的统计平均值,以解码得到左上角关键点对应的身体框的长和宽。
[0028]进一步地,在热力图解码和人体形状解码之后,所述方法还包括:
[0029]对所述多个左上角关键点和多个右下角关键点对应的身体框的交并比进行计算得到交并比计算结果;
[0030]比较所述交并比计算结果,根据比较结果选取预设数量的交并比进行匹配得到一对角关键点。
[0031]为达上述目的,本专利技术另一方面提出一种基于自适应智能匹配的宽视场高分辨多
对象检测系统,包括:
[0032]数据获取模块,用于获取包含行人的原始图像并构建目标检测网络模型;其中,所述目标检测网络模型,包括骨干网络和多个检测头;
[0033]特征提取模块,用于将所述原始图像输入至所述骨干网络进行特征提取得到深层语义特征;
[0034]特征增强模块,用于利用预设的增强方法对所述深层语义特征进行敏感度增强得到目标边界的特征增强结果;
[0035]结果预测模块,用于将所述特征增强结果分别输入至所述多个检测头,以基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果;其中,所述表征的行人边界框,包括利用行人边界框的左边界和上边界对行人左上角关键点进行边界定位,以及右边界和下边界对行人右下角关键点进边界定位。
[0036]本专利技术实施例的基于自适应智能匹配的宽视场高分辨多对象检测方法和系统,可有效提升十亿像素宽视场高分辨图像中行人自动检测任务的精度,有效解决长距离回归对最终检测框的质量影响,提高角点匹配可信度。
[0037]本专利技术的有益效果为:
[0038](1)本专利技术依靠自由度较低的左上和右下关键角点来定位检测目标行人,这两个独立的角点对密集、遮挡的行人场景有良好的包容性,可有效提升十亿像素宽视场高分辨图像中行人自动检测任务的精度。
[0039](2)本技术方案对行人检测框的表征方式中仅依靠左上/右下关键角点,消除了长距离回归对行人检测框质量的影响,能生成高质量的检测框。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应智能匹配的宽视场高分辨多对象检测方法,其特征在于,包括以下步骤:获取包含行人的原始图像并构建目标检测网络模型;其中,所述目标检测网络模型,包括骨干网络和多个检测头;将所述原始图像输入至所述骨干网络进行特征提取得到深层语义特征;利用预设的增强方法对所述深层语义特征进行敏感度增强得到目标边界的特征增强结果;将所述特征增强结果分别输入至所述多个检测头,以基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果;其中,所述表征的行人边界框,包括利用行人边界框的左边界和上边界对行人左上角关键点进行边界定位,以及右边界和下边界对行人右下角关键点进边界定位。2.根据权利要求1所述的方法,其特征在于,在所述将所述原始图像输入至所述骨干网络之前,所述方法还包括:对所述原始图像进行降采样得到降采样图像;利用预设尺寸的滑窗将所述降采样图像进行裁剪得到预设尺寸的切片图像。3.根据权利要求1所述的方法,其特征在于,所述基于表征的行人边界框进行关键点和回归集合的预测得到关键点预测结果和回归集合预测结果,包括:利用第一检测头预测行人边界框的左上角关键点的位置热力图和利用第三检测头预测行人边界框的右下角关键点的位置热力图以得到所述关键点预测结果;利用第二检测头回归对应左上角关键点的人体形状编码集合和利用第四检测头回归对应右下角关键点的人体形状编码集合以得到所述回归集合预测结果。4.根据权利要求3所述的方法,其特征在于,将所述左上角关键点或所述右下角关键点映射为高斯衰减的圆形区域,并得到对应的所述位置热力图的损失函数:其中,N是当前图像中行人的总数,p
xy
是热力图上坐标为(x,y)处关键点的真值,取值范围0

1,p`
xy
是对应位置的网络输出预测值,α是调节难易样本权重的超参数,β是调节距离衰减项的权重的超参数。5.根据权利要求1所述的方法,其特征在于,所述目标检测网络模型的优化目标从单段长距离回归转变为回归集合,则对应的损失函数:其中,N是当前图像中行人的数量,n是一个回归集合中包含的元素个数,w

k,i
是第k个目标的回归集合中第i个回归元素的网络输出预测值,w
k,i

【专利技术属性】
技术研发人员:方璐郭雨晨林浩哲
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1