一种基于动态锚点的人物交互检测方法技术

技术编号:37774208 阅读:17 留言:0更新日期:2023-06-06 13:41
本发明专利技术提出一种基于动态锚点的人物交互检测算法,利用动态锚点引导模型提取实例的多尺度特征,利用动态锚点位置分布来匹配动态锚点和查询嵌入,将从多尺度特征中提取的语义信息添加到查询嵌入中,生成人物交互检测嵌入,并对所有元素进行预测。并对所有元素进行预测。并对所有元素进行预测。

【技术实现步骤摘要】
一种基于动态锚点的人物交互检测方法


[0001]本专利技术属于人工智能的图像处理领域,特别是一种基于动态锚点的人物交互检测方法。

技术介绍

[0002]人物交互检测主要是由人

物体检测和人物交互动作识别两个部分,现有的方法主要分为两大类,两阶段方法和单阶段方法。两阶段方法首先通过现成的检测框架识别和定位图片中的实例(人和物),然后使用从定位区域提取的视觉特征识别动作类。单阶段方法是结合Transformer检测出人

物对,利用人

物对之间的交互点同时预测人

物的偏移量和动作类别。
[0003]但是,当图像中的人和物体距离较远时,这些方法会受到模糊语义特征的干扰。另外,现有的方法在图片存在噪声背景的时候往往无法提取到需要的特征,影响检测的准确率。

技术实现思路

[0004]本专利技术要解决的技术问题是现有人物交互检测方法存在噪声背景过大、模糊语义特征干扰,导致检测准确率低。
[0005]本专利技术提出一种基于动态锚点的人物交互检测方法。
[0006]一种基于动态锚点的人物交互检测方法,包括:
[0007]步骤1,将获取的图像切分成图像块;
[0008]步骤2,计算全局注意力,构建由层归一化、全局注意力、多层神经网络组成的交互模块,将交互模块应用到图像块上,提取锚点和多尺度特征;
[0009]步骤3,根据步骤2提取出的所有锚点计算出中心锚点,根据与中心锚点的距离重新排列所有锚点并按照距离划分区间,根据区间内的锚点数量得到分布频率,根据分布频率对每个距离区间内的锚点进行采样,得到采样锚点,按照采样的顺序对采样锚点和查询嵌入进行匹配;
[0010]步骤4,利用匹配后的采样锚点将获取的图像和查询嵌入进行结合,将多尺度特征中的语义信息添加到查询嵌入中,生成人物交互检测器。
[0011]优选的,所述步骤1中,将图像切分成不重叠的图像块。
[0012]优选的,所述步骤2中,计算全局注意力的步骤为:利用分块函数对图像块分块,分成尺寸为的特征块,每个特征块映射到查询池化后拼接,再映射到键和值根据公式计算全局注意力,其中,B代表由深度卷积层预测的偏差,d是常数,Softmax()代表归一化指数函数,i代表第i个特征块,H和W分别代表token的高度和宽度,k
h
和k
w
分别代表特征块的高度和宽度。
[0013]优选的,所述中心锚点的算式为:
[0014][0015]其中,num
D
代表总锚点数量。代表所有锚点中第i个锚点的坐标,{x
Centre
,y
Centre
}代表中心锚点的坐标。
[0016]优选的,所述划分区间的算式为:
[0017][0018]其中,M
i
代表第i个区间,L
max
代表最远锚点到中心锚点的距离,N代表区间数,N为正整数,i=0,1,2

N。
[0019]优选的,所述对每个距离区间内的锚点进行采样时,进行等距采样,采样的算式为:
[0020][0021]其中,代表区间内需要采样的锚点数量,N
q
代表需要采样的总锚点数量,P
i
代表第M
i
个区间内分布频率;
[0022][0023]其中,代表Mi区间内的锚点数量,num
D
代表总锚点数量;
[0024]优选的,所述步骤4中,结合获取的图像和查询嵌入进行的算式为:
[0025][0026]其中,MSDeformAttn代表多尺度可变形注意力,z
q
代表查询的表征特征,代表每个查询的动态锚点的坐标,代表多尺度特征图,m,l,k分别代表注意力头、输入特征尺度、采样锚点的索引,ΔD
mlqk
和A
mlqk
分别代表第k个动态锚点在第l个特征层,第m个注意力头的采样偏移量和注意力权重,W
m
代表m个注意力头的连接矩阵,x
l
和φ
l
代表在第l个特征层的特征图和对坐标的回归。
[0027]优选的,所述其中F
q
,F
k
,F
v
都是线性映射层。
[0028]优选的,所述分块函数的公式为,
[0029][0030][0031]其中,代表特征块,Sw()代表线性层,y代表图像块。
[0032]本专利技术同现有技术相比具有以下优点及效果:
[0033]1、本专利技术的交互模块可以有效缓解图像中的人和物体距离较远的情况中,模糊语义特征的干扰问题。
[0034]2、本专利技术提取的锚点为动态锚点,根据动态锚点雷达采样策略,解决噪声背景的影响提取特征的问题;另外,结合了由动态锚点指导提取的语义信息和查询嵌入,提高了HOI检测任务的精度。
附图说明
[0035]构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0036]图1为实施例1中交互模块的示意图。
具体实施方式
[0037]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。
[0038]实施例1:
[0039]一种基于动态锚点的人物交互检测方法,步骤如下:
[0040]步骤1,切分图像:将输入的RGB图片切分成不重叠的图像块。例如,使用swin_transformer或者resnet提取backbone,得到特征图y(即图像块)。
[0041]步骤2.1,计算全局注意力:对特征图y使用分块函数Partition()进行分块,分块后的特征块的尺寸为然后对特征块池化得到新的特征块x,H、W代表特征图y尺寸高度和宽度,k
h
、k
w
代表分块时窗口的尺寸高度和宽度。算式如下:
[0042][0043][0044]该式起到一个线性层的作用,Sw()是一个简单的线性层,得到的特征块x尺寸为其中的H、W、k
h
、k
w
为上述。
[0045]每个特征块x映射到查询每个特征块x映射到查询池化后拼接,再映射到键和值和值根据公式
计算全局注意力,其中,B代表由深度卷积层预测的偏差,d是常数,Softmax()代表归一化指数函数,i代表第i个特征块,F
q
,F
k
,F
v
都是线性映射层。
[0046]步骤2.2,构建由层归一化、全局注意力、多层神经网络组成的交互模块,例如,构建由LayerNorm、全局注意力、MLP(Multilayer 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于动态锚点的人物交互检测方法,其特征在于,包括:步骤1,将获取的图像切分成图像块;步骤2,计算全局注意力,构建由层归一化、全局注意力、多层神经网络组成的交互模块,将交互模块应用到图像块上,提取锚点和多尺度特征;步骤3,根据步骤2提取出的锚点计算出中心锚点,根据与中心锚点的距离重新排列锚点并按照距离划分区间,根据区间内的锚点数量得到分布频率,根据分布频率对每个距离区间内的锚点进行采样,得到采样锚点,按照采样的顺序对采样锚点和查询嵌入进行匹配;步骤4,利用匹配后的采样锚点将获取的图像和查询嵌入进行结合,将多尺度特征添加到查询嵌入中,生成人物交互检测器。2.根据权利要求1所述的基于动态锚点的人物交互检测方法,其特征在于,所述步骤1中,将图像切分成不重叠的图像块。3.根据权利要求1所述的基于动态锚点的人物交互检测方法,其特征在于,所述步骤2中,计算全局注意力的步骤为:利用分块函数对图像块分块,分成尺寸为的特征块,每个特征块映射到查询池化后拼接,再映射到键和值根据公式计算全局注意力,其中,B代表由深度卷积层预测的偏差,d是常数,Softmax()代表归一化指数函数,i代表第i个特征块,H和W分别代表token的高度和宽度,k
h
和k
w
分别代表特征块的高度和宽度。4.根据权利要求1所述的基于动态锚点的人物交互检测方法,其特征在于,所述中心锚点的算式为:其中,num
D
代表总锚点数量。代表所有锚点中第i个锚点的坐标,x
Centre
,y
Centre
代表中心锚点的坐标。5.根据权利要求1所述的基于动态锚点的人物交互检测方法,其特征在于,所述划分区间的算式为:其中,M
i
代表第i个区间,L<...

【专利技术属性】
技术研发人员:王越峰马帅磊魏颖
申请(专利权)人:绍兴市北大信息技术科创中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1