一种基于多帧特征聚合的动态目标检测方法及装置制造方法及图纸

技术编号:30230874 阅读:18 留言:0更新日期:2021-09-29 10:03
本发明专利技术公开了一种基于多帧特征聚合的动态目标检测方法及装置,该方法包括:在Faster RCNN的全连接层后添加关系模块;通过全局关系模块将全局帧的语义特征聚合到局部帧和关键帧,得到增强局部帧和第一增强关键帧;通过局部关系模块将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,得到第二增强关键帧;通过局部关系模块将第二增强关键帧其他候选区域的语义特征和位置特征聚合到某一候选区域,得到第三增强关键帧;基于第三增强关键帧得到动态目标检测结果。本发明专利技术在动态目标检测的过程中充分利用了视频中的上下文信息来辅助当前关键帧目标的检测和定位,提高了检测的精确度。的精确度。的精确度。

【技术实现步骤摘要】
一种基于多帧特征聚合的动态目标检测方法及装置


[0001]本专利技术涉及计算机视觉
,特别涉及一种基于多帧特征聚合的动态目标检测方法及装置。

技术介绍

[0002]在动态目标检测的研究中,人们尝试将静态图像的目标检测直接应用于视频的每一帧中,但这种方法没有利用好视频是一个空间与时间信息集合体的特征,因此容易受到遮挡、模糊以及光照条件等变化带来的准确性降低等问题。

技术实现思路

[0003]本专利技术提供了一种基于多帧特征聚合的动态目标检测方法及装置,以解决现有的动态目标检测方法容易受到遮挡、模糊以及光照条件等变化带来的准确性降低的技术问题。
[0004]为解决上述技术问题,本专利技术提供了如下技术方案:
[0005]一方面,本专利技术提供了一种基于多帧特征聚合的动态目标检测方法,包括:
[0006]在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
[0007]从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
[0008]通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;
[0009]基于所述第三增强关键帧,得到当前动态目标的检测结果。
[0010]进一步地,将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,包括:
[0011]使用广义余弦相似度来度量两个候选区域之间的语义相似度,从而判断两个候选区域是否同属一个类别,表达式为:
[0012][0013]其中,φ(.)和ψ(.)代表变换函数,表示第k帧第i个候选区域,表示第f帧第j个候选区域;表示和之间的语义相似度,T表示转置;
[0014]使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达式为:
[0015][0016]其中,表示语义相似度的归一化处理结果;
[0017]将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,表达式为:
[0018][0019]其中,表示第k帧第i个候选区域的语义特征聚合结果,Ω是为聚合全局帧的语义特征随机选择的帧索引集,N为每帧中的候选区域个数。
[0020]进一步地,将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,包括:
[0021]构造关系函数,将B中候选区域对象集的语义特征和位置特征聚合到P帧中第n个候选区域,即关系特征f
R(n)
表示为:
[0022][0023]其中,表示B中第l个对象的语义特征,W
v
是线性变换矩阵;ω
ln
为关系权重因子,表示来自其他对象的影响,表示为:
[0024][0025]其中,和分别表示B中第l个候选框和P帧中第n个候选框之间的位置特征权重和语义特征权重;表示B中的对象集和P帧中第n个对象之间的位置特征权重和语义特征权重之和;
[0026]所述局部关系模块通过r个关系特征模块来进一步增强每个候选区域的语义特征信息和位置特征信息,表示为:
[0027][0028]其中,表示P帧中第n个候选区域的语义特征,表示经过第r个关系特征模块后得到的关系特征,f
ra
(p
n
,B)表示P帧中的第n个候选区域特征通过连接r个关系特征和原始语义特征后得到的增强特征;
[0029]使用f
ra
(P,B)表示所有增强的候选区域特征的集合,即P中的所有候选区域都是通过B中的候选区域的特征来增强的;
[0030]将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,表达式为:
[0031]K
L
=f
ra
(K

,L

)
[0032]其中,K

,L

分别表示第一增强关键帧的候选区域和增强局部帧的候选区域,K
L
表示第一增强关键帧的所有候选区域经过局部帧增强后的集合,即第二增强关键帧所有候选区域的集合。
[0033]进一步地,将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,表达式为:
[0034]K
LK
=f
ra
(K
L
,K
L
)
[0035]其中,K
LK
表示第二增强关键帧所有候选区域经过自增强后的集合,即第三增强关键帧所有候选区域的集合。
[0036]进一步地,的表达式为:
[0037][0038]其中,W
K
和W
Q
都是矩阵,表示将原始语义特征和投影到子空间,从而衡量匹配度,d
k
表示特征维数。
[0039]进一步地,的表达式为:
[0040][0041]其中,W
G
是一个矩阵,用于将嵌入的特征转化为标量权值;ε
G
(.)表示一个变换函数,作用是将两个候选框的几何特征映射到一个高维表示中;dim(.)表示一个变换坐标公式,作用是将位置特征映射成一个4维的相对几何特征,以保证不变性;表示B中第l个候选框的位置特征,表示P帧中第n个候选框的位置特征,两个位置特征均使用4维的几何特征。
[0042]进一步地,基于所述第三增强关键帧得到当前动态目标的检测结果,包括:
[0043]将所述第三增强关键帧特征进行分类、回归处理,最后经过非极大抑制得到当前动态目标的检测结果。
[0044]另一方面,本专利技术还提供了一种基于多帧特征聚合的动态目标检测装置,该基于多帧特征聚合的动态目标检测装置包括:
[0045]动态目标检测框架构建模块,用于在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;
[0046]全局帧与局部帧获取模块,用于从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;
[0047]多帧特征聚合模块,用于通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多帧特征聚合的动态目标检测方法,其特征在于,包括:在Faster RCNN的全连接层后添加关系模块;其中,所述关系模块包括全局关系模块和局部关系模块;从视频中与关键帧相邻的帧中随机选取多帧作为局部帧;从视频中随机选取多帧作为全局帧;其中,所述关键帧中包含待检测的动态目标;通过所述全局关系模块将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,得到增强局部帧和第一增强关键帧;通过所述局部关系模块将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,得到第二增强关键帧;通过所述局部关系模块将所述第二增强关键帧中除选定候选区域外的其他候选区域的语义特征和位置特征聚合到选定候选区域,得到第三增强关键帧;基于所述第三增强关键帧,得到当前动态目标的检测结果。2.如权利要求1所述的基于多帧特征聚合的动态目标检测方法,其特征在于,将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,包括:使用广义余弦相似度来度量两个候选区域之间的语义相似度,从而判断两个候选区域是否同属一个类别,表达式为:其中,φ(.)和ψ(.)代表变换函数,表示第k帧第i个候选区域,表示第f帧第j个候选区域;表示和之间的语义相似度,T表示转置;使用softmax函数对所有候选区域进行相似性归一化处理,将各个输出节点的输出值范围映射到[0,1],并且约束各个输出节点的输出值和为1,表达式为:其中,表示语义相似度的归一化处理结果;将所述全局帧的语义特征聚合到所述局部帧和所述关键帧,表达式为:其中,表示第k帧第i个候选区域的语义特征聚合结果,Ω是为聚合全局帧的语义特征随机选择的帧索引集,N为每帧中的候选区域个数。3.如权利要求1所述的基于多帧特征聚合的动态目标检测方法,其特征在于,将所述增强局部帧的语义特征和位置特征聚合到所述第一增强关键帧,包括:构造关系函数,将B中候选区域对象集的语义特征和位置特征聚合到P帧中第n个候选区域,即关系特征f
R(n)
表示为:其中,表示B中第l个对象的语义特征,W
v
是线性变换矩阵;ω
ln
为关系权重因子,表示来自其他对象的影响,表示为:
其中,和分别表示B中第l个候选框和P帧中第n个候选框之间的位置特征权重和语义特征权重;表示B中的对象集和P帧中第n个对象之间的位置特征权重和语义特征权重之和;所述局部关系模块通过r个关系特征模块来进一步增强每个候选区域的语义特征信息和位置特征信息,表示为:其中,表示P帧中第n个候选区域的语义特征,表示经过第r个关系特征模块后得到的关系特征,f
ra
(p
n
,B)表示P帧中的第n个候选区域特征通过连接r个关系特征和原始语义特征后得到的增强特征;使用f
ra
(P,B)表示所有增强的候选区域特征的集合,即P中的所有候选区域都是通过B中的候选区域的特征来增强的;将增强局部帧的语义特征和位置特征聚合到第一增强关键帧,表达式为:K...

【专利技术属性】
技术研发人员:许海涛时月红林福宏周贤伟
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1