一种基于多尺度特征融合的域自适应行人检测方法技术

技术编号:37670311 阅读:19 留言:0更新日期:2023-05-26 04:31
本发明专利技术公开了一种基于多尺度特征融合的域自适应行人检测方法,该方法通过使用全方位多尺度特征融合模块对特征进行深度挖掘和提取,全面提高模型对尺度的敏感性;同时,采用多个不同类型的域适应判别器,既能够提高模型检测性能,也可以增强模型的域自适应能力,整体提升模型的鲁棒性。提升模型的鲁棒性。提升模型的鲁棒性。

【技术实现步骤摘要】
一种基于多尺度特征融合的域自适应行人检测方法


[0001]本专利技术涉及图像识别研究领域,尤其是行人检测方法,具体涉及一种基于多尺度特征融合的域自适应行人检测方法。

技术介绍

[0002]行人检测属于目标检测技术的一种,旨在针对行人这一特定目标,从图像中准确定位出所有行人。随着智慧城市的不断推进以及人工智能技术的不断发展,行人检测技术广泛应用于各个领域,尤其是在安防领域,其重要性更加突出。目前,许多人流较大的公共区域都配备了监控摄像头,密集的人群意味着更多的安全隐患,如容易发生踩踏事件而现有的监控系统无法精准地对危险进行预警,因此,如何通过摄像头的实时画面对人群进行实时监控和警示,保障人民群众的安全,维护社会稳定,是当下急需深入考虑和解决的问题。而行人检测作为人工智能的主流技术,是解决上述问题的关键一环。由于监控场景较为复杂,行人检测也面临着诸多挑战,如人群聚集导致的躯体遮挡、不同摄像头成像画面差异、光照阴影干扰等等。尽管已经有相关的研究针对上述挑战提出了解决方案,但是行人检测技术仍然有很大的改进空间。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:近年来的行人检测技术主要集中在单一尺度的检测算法上,即使有考虑多尺度的策略,但多尺度特征融合不够彻底,缺乏全面性;此外,在实际使用场景中,不同监控设备型号会造成成像差异,当前方法并没有针对这一问题进行研究设计,因此导致行人检测模型鲁棒性较低。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术提供了一种基于多尺度特征融合的域自适应行人检测方法,通过使用全方位多尺度特征融合模块对特征进行深度挖掘和提取,全面提高模型对尺度的敏感性;同时,采用多个不同类型的域适应判别器,既能够提高模型检测性能,也可以增强模型的域自适应能力,整体提升模型的鲁棒性。技术方案如下:
[0004]本专利技术提供了一种基于多尺度特征融合的域自适应行人检测方法,该方法主要包括如下步骤:
[0005]步骤1,将源域和目标域的图像输入到主干网络中,提取主干网络中最后3个模块输出的特征图,输入到特征金字塔网络中,得到特征图集合
[0006]步骤2,将特征图集合输入到检测头中,检测头包含卷积层、BatchNorm层、ReLU激活层和全连接层,使用交并比IoU损失来回归检测框,从而初步预测出候选目标框损失函数为
[0007]步骤3,将特征图集合分别通过一个3
×
3卷积层和一个1
×
1卷积层,得到两个特征图,分别记为和
[0008]将特征图输入到多尺度特征融合模块,该模块包含低分辨率和高分辨率两个主要分支,低分辨率分支中包含4个平行的卷积层,采用不同的卷积核k;高分辨率分支则先
使用步长为2的3
×
3卷积层,再使用不同卷积核的卷积层。
[0009]步骤4,结合初步预测出的候选检测框为每个分支计算权重W
k
,具体为:
[0010]其中τ为温度参数,用以平滑预测的概率分布;即预测框与卷积核的交并比,表示u
k
中的最大值。
[0011]融合所有特征实现多尺度特征表达,获得融合特征图M,具体为:其中为哈达玛积,即对应元素相乘,表示卷积核为k的卷积层输出的特征图。
[0012]步骤5,将特征图M再输入到域自适应判别模块中的检测头中,得到更加准确的预测结果;域自适应判别模块中的检测头采用FocalLoss损失和交叉熵损失,用于目标分类,采用IoU损失用于检测框回归。
[0013]域自适应判别模块包括细粒度判别模块、实例判别模块和类别判别模块,分别对应细粒度判别器、实例判别器和类别判别器。
[0014]细粒度判别模块中,将和输入到细粒度判别器D
fine
中,为源域图像经过主干网络获得的特征图,为目标域图像经过主干网络获得的特征图。
[0015]实例判别模块则是将特征图M作为输入,若属于源域的融合特征图为M
s
,若属于目标域的融合特征图为M
t
,实例判别器为D
ins

[0016]在类别判别模块中,损失函数包含两部分,一部分用于区分域信息,记为在类别判别模块中,损失函数包含两部分,一部分用于区分域信息,记为其中D
cat
为类别判别器,属于源域的实例类别标签设为属于目标域的实例类别标签设为另一部分是同时在源域和目标域区分实例的类别分布,记为在域自适应判别模块中的检测头中通过类别分支可以得到新的特征图其中H和W分别表示高度和宽度,2C表示源域和目标域中所有类别总和;使用Softmax可以进一步得到类别概率分布P,通过对类别设定阈值θ获取实例集合I={(i,j)|P
i,j
>θ};其中,是预测类别伪标签,如果中坐标(i,j)的实例属于类别c,则否则是(i,j)特征属于第c类的概率,其中和分别表示在源域和目标域中,特征图上第c类的置信度;类别判别模块的总损失为其中α和β为平衡因子。
[0017]与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果:
[0018](1)多尺度特征融合模块通过将特征图与多个尺度的卷积核进行充分交互,同时引入初步检测框辅助交互,从而挖掘出尺度不变的有效特征。
[0019](2)运用多个类型的域适应判别器从不同角度区分源域和目标域之间的特征分布,从而提高模型的跨域适应能力,增强模型的鲁棒性。
附图说明
[0020]图1为本公开实施例提供的基于多尺度特征融合的域自适应行人检测方法流程图。
具体实施方式
[0021]为了阐明本专利技术的技术方案和工作原理,下面将结合附图对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0022]本申请的说明书和权利要求书及上述附图中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
[0023]本公开实施例提供了一种基于多尺度特征融合的域自适应行人检测方法,附图1为基于多尺度特征融合的域自适应行人检测方法流程图,结合该图,该方法主要包括如下步骤:
[0024]步骤1,将源域和目标域的图像输入到主干网络中,优选的,主干网络采用Resnet50,提取主干网络中最后3个模块输出的特征图,输入到特征金字塔网络中,得到特征图集合其中m∈{3,4,5,6,7};优选的,特征金字塔网络采用FPN网络。
[0025]步骤2,将特征图集合输入到检测头中,检测头包含卷积层、BatchNorm层、ReLU激活层和全连接层,使用交并比IoU损失来回归检测框,从而初步预测出候选目标框损失函数为
[0026]优选的,步骤2损失函数为其中IoU()是计算预测框和标签框之间IoU数值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合的域自适应行人检测方法,其特征在于,该方法主要包括如下步骤:步骤1,将源域和目标域的图像输入到主干网络中,提取主干网络中最后3个模块输出的特征图,输入到特征金字塔网络中,得到特征图集合步骤2,将特征图集合输入到检测头中,检测头包含卷积层、BatchNorm层、ReLU激活层和全连接层,使用交并比IoU损失来回归检测框,从而初步预测出候选目标框损失函数为步骤3,将特征图集合分别通过一个3
×
3卷积层和一个1
×
1卷积层,得到两个特征图,分别记为和将特征图输入到多尺度特征融合模块,该模块包含低分辨率和高分辨率两个主要分支,低分辨率分支中包含4个平行的卷积层,采用不同的卷积核k;高分辨率分支则先使用步长为2的3
×
3卷积层,再使用不同卷积核的卷积层;步骤4,结合初步预测出的候选检测框为每个分支计算权重W
k
,具体为:其中τ为温度参数,用以平滑预测的概率分布;即预测框与卷积核的交并比,表示u
k
中的最大值;融合所有特征实现多尺度特征表达,获得融合特征图M,具体为:其中为哈达玛积,即对应元素相乘,表示卷积核为k的卷积层输出的特征图;步骤5,将特征图M再输入到域自适应判别模块中的检测头中,得到更加准确的预测结果;域自适应判别模块中的检测头采用FocalLoss损失和交叉熵损失,用于目标分类,采用IoU损失用于检测框回归;域自适应判别模块包括细粒度判别模块、实例判别模块和类别判别模块,分别对应细粒度判别器、实例判别器和类别判别器;细粒度判别模块中,将和输入到细粒度判别器D
fine
中,为源域图像经过主干网络获得的特征图,为目标域图像经过主干网络获得的特征图,实例判别模块则是将特征图M作为输入,若属于源域的融合特征图为M
s
,若属于目标域的融合特征图为M
t
,实例判别器为D
ins
,在类别判别模块中,损失函数包含两部分,一部分用于区分域信息,记为在类别判别模块中,损失函数包含两部分,一部分用于区分域信息,记为其中D
cat
为类别判别器,属于源域的实例类别标签设为属于目标域的实例类别标签设为另一部分是同时在源域和目标域区分实例的类别分布,记为在域自适应判别模块...

【专利技术属性】
技术研发人员:姜峰周金明
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1