一种注意力机制和FasterRCNN相结合的核电站厂区遮挡行人检测方法技术

技术编号:32130348 阅读:15 留言:0更新日期:2022-01-29 19:28
本发明专利技术公开了一种基于注意力机制的遮挡行人检测检测方法,本发明专利技术将改进的双阶段行人检测方法Faster RCNN用于行人检测,实现在实际复杂场景内被部分遮挡行人的检测。该方法对在传统的FasterRCNN模型的基础上增加了通道注意力机制引导网络,使网络能够关注行人的可见部分;同时将定位损失函数拆分为吸引项和抑制项两部分,可使一个目标的预测框在靠近真实框的同时远离周围目标的真实框,以此减少行人的前景遮挡;以公共数据集中的数据进行实例分析,验证了该发明专利技术的实用性和通用性。验证了该发明专利技术的实用性和通用性。验证了该发明专利技术的实用性和通用性。

【技术实现步骤摘要】
一种注意力机制和Faster RCNN相结合的核电站厂区遮挡行人检测方法


[0001]本专利技术属于核电站安全监控行人检测
,具体涉及一种注意力机制和Faster RCNN相结合的核电站厂区遮挡行人检测方法。

技术介绍

[0002]核电站厂区巡检机器人进行特定工作区域的安全巡检时,因采集到厂区工作人员图像的多尺度问题容易造成人员的漏检,进而威胁到核电厂安全稳定地运行,也容易导致人员发生危险。近年来随着计算机运算能力的日益提高,基于卷积神经网络的行人检测方法已经取得了许多突破性的进步,但是受到外界多种复杂因素的影响,被遮挡的行人对行人检测造成的干扰仍然是一个待解决的问题,现阶段的行人检测模型还是有较大的提升空间,继续深入的研究基于卷积神经网络的行人检测方法提高行人检测精度仍然具有重要意义。

技术实现思路

[0003]为了克服上述现有技术的不足,本专利技术的目的在于提供一种注意力机制和Faster RCNN相结合的核电站厂区遮挡行人检测方法,将改进的双阶段行人检测方法Faster RCNN用于行人检测,实现在复杂场景内对遮挡行人的检测。该方法在传统的Faster RCNN模型中增加了通道注意力机制引导网络,并将定位损失函数拆分为吸引项和抑制项两部分,使目标的预测框在靠近真实框的同时远离周围目标的真实框,以此减少行人的前景遮挡,提高遮挡行人检测的精度,降低漏检率。
[0004]为了实现上述目的,本专利技术采用的技术方案是:
[0005]一种注意力机制和Faster RCNN相结合的核电站厂区遮挡行人检测方法,包括以下步骤;
[0006]步骤一,注意力机制引导网络:
[0007]注意力网络引用SE模块,SE模块是典型的通道域注意力机制,能够显式的建立行人特征通道间的关系,模型能够重点关注行人未被遮挡的区域,当核电站厂区行人图像输入至模型后,先通过VGG16网络进行特征提取,生成的特征图输入至RPN网络中,滑动窗口会在特征图上每一个位置进行滑动,并且在每个位置上都会生成9种不同比例的候选框,在RPN中每个候选区域都会有分类置信度,判断该预测框候选区域中为行人的概率为多大,对置信分数高的候选区域将会送入后面分类器中做进一步选择,滑动窗口在特征图上滑动时最初生成的9种不同比例的候选框并不精确,RPN中的回归机制对候选框的位置进行初步的修正,经过RPN进行候选区域选择后,得到具有行人特征的特征图,特征图输入至注意力网络中,通过SE模块建立行人特征图通道间的关系;
[0008]卷积神经网络的不同通道特征编码了行人不同的部位,在特征图的某些通道中对行人的头、肩以及脚等部位有着较高的激活响应,使用通道注意力机制将特征图网络生成
一个长度为通道数目的向量,而向量中的每一个元素都与特征图中的每个通道相对应,表示该通道的权重,通过调整通道权重来提示网络应该关注行人的哪些部位;
[0009]步骤二,改进损失函数:
[0010]经过步骤二中注意力机制对行人特征图中一些对行人肩部、头部以及脚部等具有较高激活响应的通道进行重新标定后,模型将重点放在了行人未被遮挡的部分,能够有效检测出被车辆,树木等物体遮挡的行人,重新标定后的特征输入至全连接层进行分类与回归,通过抑制行人预测框的偏移来进一步提高行人检测精度;
[0011]步骤1,分类损失函数
[0012]经过RPN对特征图候选区域选择后初步确定行人区域和位置,然后经过全连接层使用分类函数衡量RPN生成的预测框是否正确的区分了行人与背景,函数的数学表达如公式(1)所示:
[0013][0014]在Softmax层得到预测框图中的类别概率之后,采用Log似然代价函数对分类损失进行计算,其数学表达式如公式(2)所示:
[0015][0016]步骤2,定位损失函数
[0017]对特征图中的通道重新标定后,含有行人不同特征的通道被赋予了不同的权重,模型重点关注有行人重要特征的通道,之后通过全连接层对行人回归,行人因为个体间具有更为相近的距离,很容易形成类内的遮挡;在检测过程中,当两个行人具有相似的外观且距离较为相近,就会引起当前行人预测框向邻近的遮挡行人位置偏移,导致了定位的偏差甚至漏检等情况的发生;针对这种现象,设置定位损失函数,该函数的目标有两个:一是使当前预测框能够更加接近所预测行人的真值框,二是使得当前预测框能够尽可能的远离周围目标;
[0018]损失函数中包括使预测框能够更接近真实框的吸引项L
Attr
和使预测框远离周围真实框的抑制项L
Sup
;在吸引项中分为了使预测框尽可能去靠近真实框的L
AttrGT
和吸引对同一目标真实框的预测框的聚集L
AttrPre
;抑制项进一步分为了对周围目标真实框的抑制L
SupGT
和对周围目标预测框的抑制L
SupPre
,损失函数;定位损失函数的数学表达如公式(3)所示:
[0019]L
reg
=L
AttrGT

·
L
AttrPre

·
L
SupGT

·
L
SupPre
ꢀꢀꢀ
(3)
[0020]式中的α、β和μ三个系数用作了平衡三部分损失的权重;
[0021]在只考虑行人和背景两类检测的情况下,即所有的检测对象都是属于同一类,则设定预测框的坐标为P=(x
p
,y
p
,w
p
,h
p
),真值框的坐标为G=(x
G
,y
G
,w
G
,h
G
),四个点分别表示左上点的坐标以及框的宽度和高度;将P+={P}表示为所有包含着正样本的预测框集合,将G
+
={G}表示为图片中所有真实框的集合;
[0022]交并比IOU主要表示为体现检测器的定位精度,其数学描述如公式(4)所示:
[0023][0024]其中BBox代表的是预测的行人包围框,gtBBox代表的是数据集中所标注的行人包
围框;IOU用来计算二者的重叠程度,当重叠程度大于某一阈值时认为该检测框与标注框匹配,重叠程度越高则代表算法定位程度越准确;
[0025]对于所有P
+
={P},将与真实目标框有着最大IOU的预测框定义为数学表达如公式(5)所示;对于所有的P
+
={P},将需要抑制的周围目标真实框定义为数学表达如公式(6)所示,表示除了之外,和预测框还具有最大IOU的真实框;
[0026][0027][0028](1)吸引项主要是通过Smooth
L1
函数、欧氏距离等距离度量函数来缩小预测框和真实框之间的差值,使预测框和真实框能够更加的接近;同时将同一目标的预测框之间的距离尽可能的缩小,聚集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种注意力机制和Faster RCNN相结合的核电站厂区遮挡行人检测方法,其特征在于,包括以下步骤;步骤一,注意力机制引导网络:注意力网络引用SE模块,当核电站厂区行人图像输入至模型后,先通过VGG16网络进行特征提取,生成的特征图输入至RPN网络中,滑动窗口会在特征图上每一个位置进行滑动,并且在每个位置上都会生成9种不同比例的候选框,在RPN中每个候选区域都会有分类置信度,判断该预测框候选区域中为行人的概率为多大,对置信分数高的候选区域将会送入后面分类器中做进一步选择,滑动窗口在特征图上滑动时最初生成的9种不同比例的候选框并不精确,RPN中的回归机制对候选框的位置进行初步的修正,经过RPN进行候选区域选择后,得到具有行人特征的特征图,特征图输入至注意力网络中,通过SE模块建立行人特征图通道间的关系;卷积神经网络的不同通道特征编码了行人不同的部位,在特征图的某些通道中对行人的头、肩以及脚等部位有着较高的激活响应,使用通道注意力机制将特征图网络生成一个长度为通道数目的向量,而向量中的每一个元素都与特征图中的每个通道相对应,表示该通道的权重,通过调整通道权重来提示网络应该关注行人的哪些部位;步骤二,改进损失函数:经过步骤一中注意力机制对行人特征图中一些对行人肩部、头部以及脚部等具有较高激活响应的通道进行重新标定后,模型将重点放在了行人未被遮挡的部分,能够有效检测出被车辆,树木等物体遮挡的行人,重新标定后的特征输入至全连接层进行分类与回归,通过抑制行人预测框的偏移来进一步提高行人检测精度;步骤1,分类损失函数经过RPN对特征图候选区域选择后初步确定行人区域和位置,然后经过全连接层使用分类函数衡量RPN生成的预测框是否正确的区分了行人与背景,函数的数学表达如公式(1)所示:在Softmax层得到预测框图中的类别概率之后,采用Log似然代价函数对分类损失进行计算,其数学表达式如公式(2)所示:步骤2,定位损失函数对特征图中的通道重新标定后,含有行人不同特征的通道被赋予了不同的权重,模型重点关注有行人重要特征的通道,之后通过全连接层对行人回归,行人因为个体间具有更为相近的距离,很容易形成类内的遮挡;在检测过程中,当两个行人具有相似的外观且距离较为相近,就会引起当前行人预测框向邻近的遮挡行人位置偏移,导致了定位的偏差甚至漏检等情况的发生;针对这种现象,设置定位损失函数,该函数的目标有两个:一是使当前预测框能够更加接近所预测行人的真值框,二是使得当前预测框能够尽可能的远离周围目标;损失函数包括使预测框能够更接近真实框的吸引项L
Attr
和使预测框远离周围真实框的
抑制项L
Sup
;在吸引项中分为了使预测框尽可能去靠近真实框的L
AttrGT
和吸引对同一目标真实框的预测框的聚集L
AttrPre
;抑制项进一步分为了对周围目标真实框的抑制L
SupGT
和对周围目标预测框的抑制L
SupPre
,损失函数;定位损失函数的数学表达如公式(3)所示:L
reg
=L
AttrGT

·
L
AttrPre

·
L
SupGT

·
L
SupPre
ꢀꢀꢀꢀꢀꢀꢀ
(3)式中的α、β和μ三个系数用作了平衡三部分损失的权重;在只考虑行人和背景两类检测的情况下,即所有的检测对象都是属于同一类,则设定预测框的坐标为P=(x
p
,y
p
,w
p
,h
p
),真值框的坐标为G=(x
G
,y
G
,w
G
,h
G
),四个点分别表示左上点的坐标以及框的宽度和高度;将P+={P}表示为所有包含着正样本的预测框集合,将G
+
={G}表示为图片中所有真实框的集合;交并比IOU主要表示为体现检测器的定位精度,其数学描述如公式(4)所示:其中BBox代表的是预测的行人包围框,gtBBox代表的是数据集中所标注的行人包围框;IOU用来计算二者的重叠程度,当重叠程度大于某一阈值时认为该检测框与标注框匹配,重叠程度越高则代表算法定位程度越准确;对于所有P
+
={P},将与真实目标框有着最大IOU的预测框定义为数学表达如公式(5)所示;对于所有的P
+
={P},将需要抑制的周围目标真实框定义为数学表达如公式(6)所示,表示除了之外,和预测框还具有最大IOU的真实框;之外,和预测框还具有最大IOU的真实框;(1)吸引项主要是通过Smooth
L1
函数、欧氏距离等距离度量函数来缩小预测框和真实框之间的差值,使预测框和真实框能够更加的接近;同时将同一目标的预测框之间的距离尽可能的缩小,聚集在真实框目标周围;选用Smooth
L1
作为距离度量函数;给定一个包含正样本的候选框P∈P
+
,则为每一个候选框都要匹配一个与之拥有最大IOU的真实框,则吸引项的损失计算如公式(7)所示:将通过IOU阈值筛选过后的同一目标预测框集合定义为P
k
,对同一目标预测框的吸引聚集公式损失计算如公式(8)所示:L
AttrPre
=Smooth
L1
...

【专利技术属性】
技术研发人员:刘迪杨东崔逸群刘超飞吕珍珍王文庆毕玉冰邓楠轶朱博迪肖力炀刘骁董夏昕介银娟朱召鹏崔鑫王艺杰
申请(专利权)人:华能集团技术创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1