一种基于人体交互意图信息的层级人物交互检测方法技术

技术编号:37979929 阅读:15 留言:0更新日期:2023-06-30 09:55
本发明专利技术公开了一种基于人体交互意图信息的层级人物交互检测方法,分为1)目标检测:检测输入图像中的所有对象实例。2)人物交互检测:对图像中所有的<人

【技术实现步骤摘要】
一种基于人体交互意图信息的层级人物交互检测方法


[0001]本专利技术属于计算机视觉和人物交互检测领域,研究了一种新的人物交互检测方法。

技术介绍

[0002]目标检测与识别是图像分析和图像理解的基础与前提,其目的是定位图像或视频序列中物体的位置、并识别出相应的物体类别。它是计算机视觉中重要的基础问题之一。然而,为了更好地理解视觉世界,计算机不仅应该准确地检测场景中的个体目标实例,还应该进一步理解场景中的人与物体之间的交互方式。人物交互检测(HOI Detection)就是进一步地在更高层次上对场景中人类的行为进行理解,它要求模型准确地定位出场景中人和物体的位置,同时正确预测出他们之间存在的各种交互行为。通过研究人物交互检测来更好地了解理解人与世界的互动方式,使机器具备像人类一样观察和理解周围环境并做出快速决断的机制,可以促进智能安防、智能服务型等机器人技术的发展。由此看来,人物交互检测技术不仅具有重要的理论研究意义和实用价值,还蕴含着广阔的发展潜力。
[0003]早期人物交互检测方法主要依靠视觉特征来捕捉人与物体之间的上下文关系,或是本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,该方法包括:1)目标检测:检测输入图像中的所有对象实例;2)人物交互检测:对图像中所有的<人

物体>对实例进行人物交互检测;1)目标检测负责对RGB图像中的对象实例进行目标检测,以获取对象的目标框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人

物体>对实例的人物交互检测;2)人物交互检测:利用多粒度人体信息构建交互意图层以对原有的空间语义信息进行细节补充;考虑到人物交互检测数据实例尺寸大小的多样性,如果构建粒度互补的层级化交互检测网络,在三层框架上,实现宏观、中观和微观三种不同粒度的交互信息的互补;人物交互检测方法的输入为RGB图像x
i
、人的检测框信息物体的检测框信息输出为图像中所有的<人

物>对实例的交互行为得分用公式描述如下:其中,为图像中m个人的集合,为图像中n个物体的集合;表示m个人与n个物体交互所产生的mn个<人

物体>对实例的交互行为得分。2.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,层级化网络结构由空间布局层、交互意图层和客观外表层构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络Faster R

CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图;采用两阶段HOI检测过程,给定输入图像x
i
,首先通过空间布局支流、人体注视支流和外观流获得交互判断阶段的结果S
J
,判断结果高于阈值的人

对象对将进入交互分类阶段;进入候选人类对象对继续通过空间布局流、外观流、姿态流和身体部位流,以获得最终的HOI分类结果S
c
。3.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,空间布局层的目的是在宏观交互层面上获得交互式空间布局信息;借助空间位置关系来定位场景中实例的位置;对于空间布局层的空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图M
sp
;空间特征图M
sp
的编码规则为:实例的边界框内的像素值设置为1,在两个通道中将实力边界框外的其他值设置为0;对于给定的一对人类对象边界框,其空间交互映射被定义为具有两个通道的二进制图像:第一个通道对应于人类的二进制模式,第二个通道对应对象;使神经网络能够学习二维滤波器,以响应二维人类空间交互模式;利用两个最大池化卷积层和两个全连接层来提取空间布局流的特征f
sp
,参与最终的交互类别分类,描述如下:,参与最终的交互类别分类,描述如下:其中,与表示全连接层参数矩阵,f
cnn
表示卷积操作;并使用Sigmoid非线性激活函数对<人

物体>对空间特征进行人物交互分类,f
sp
表示空间特征向量,S
sp
表示空间流特征在各交互类别上的概率得分。4.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特
征在于,客观外表层包含一个人流分支和一个物流分支,提供微观交互级别的像素级外观预测信息;采用包含全局平均池化的残差模块从全局外观特征中提取人和物体的视觉特征f
h
和f
o
,将提取的F
h
和F
o
缩放到固定大小p
×
p;并通过两个全连接层进行特征增强后计算人流特征和物流特征在交互类别上的概率得分S
h
和S
o
,用公式描述如下:S
h
=Sigmoid(W
h
f
h
)
ꢀꢀ
(4)S
o
=sigmoid(W
o
f
o
)
ꢀꢀ
(5)其中,公式(4)和(5)分别表示两个全连接层运算,W
h
和W
o
表示全连接层参数矩阵,f
h
和f
o
分别表示人和物体的视觉特征。5.根据权利要求1所述的一种基于人体交互意图信息的层级人物交互检测方法,其特征在于,交互意图层挖掘中观视角的信息,构建一个人类交互意图驱动的交互意图层,提供计算视角来利用视觉上到的三种形式的人类意图,由以下三个支流组成:(1)人体注视支流:使用预训练的双流模型获得人类注视区域;预训练的注视预测模型将输入图像I和由人类姿势估计网络计算的人眼中心的位置作为输入,输出固定区域的注视概率密度图G;语序网络由显著性路径和注视路径组成;凝视路径只能访问人的头部及其位置的特写图像,并获得大小为D
×
D的热图M(x
h
,x
p
);显著性路径将完整图像x
i
作为输入,并获得另一个热图h(x
i
);将这两个结果与元素乘积相结合,得到以下等式:其中,x
i
是输入图像,x
h
是裁剪的人体特征的特写图像,x
p
是人体头部的量化空间位置,G为输出的注视概率密度图;对于图像中的每个人类实例,选择k个候选对象区域b=(b1,...,b
k
);对于每个候选区域b∈b、计算其注视权重g
b
;其中g
b
是通过将b中密度图G的值相加,然后将b的面积归一化为:其中,area
b
代表候选区域b,G
x,y
该区域获取的注视概率密度图;然后,从k个候选区域中选择具有最大g
b
的区...

【专利技术属性】
技术研发人员:孔德慧王帅李敬华尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1