一种三阶段网络框架的单视角人-物交互的识别方法技术

技术编号:31753235 阅读:46 留言:0更新日期:2022-01-05 16:35
本发明专利技术公开了一种三阶段网络框架的单视角人

【技术实现步骤摘要】
一种三阶段网络框架的单视角人

物交互的识别方法


[0001]本专利技术属于Human Objection Interaction领域,尤其是一种三阶段网络框架的单视角人

物交互的识别方法。

技术介绍

[0002]利用人工智能技术提取图片中的人物的行为及其与物体的交互关系是计算机视觉中的热点问题。相较于传统的行为识别方法,HOI识别的任务是检测和识别每个人与周围物体的互动方式,主要针对一些动作较为复杂的场景(如动作类型较多、背景信息较复杂等),首先通过目标检测的方法识别场景中的所有人/物体,再利用场景中相关的人/物体的外观信息以及相对位置信息得到两者的交互类型,输出<人,动词,物体>的三元组结构,从目标检测到最后的三元组输出被称为HOI的一次前向推理。
[0003]现阶段的HOI识别方法大多是针对简单场景情况下的研究,即图像中仅包含1

2个人/物体的情况,而忽略了多人多物场景对HOI识别的影响。在多人多物场景中,通常人物密集,物体种类和数量较多,使得图片中人与人、人与物之间存在大量的遮挡,人和物的图像分辨率较低,以及人与物的组合关系爆炸问题。现有的方法应用于真实多人多物场景中,存在以下问题,第一:在物体检测阶段,如果预训练的物体检测模型由于人物/物体被遮挡、甚至被隐藏,或者由于图像的模糊而无法准确检测到图像中所有的人物/物体对象,具有真实HOI关系的人

物组合可能会被漏掉,从而使HOI识别的性能下降。第二:在交互式动作识别阶段,由于模型是以人

物组合的形式作为输入,一副图像中人和物的数量增长导致人

物组合的数量呈指数级增长,在模型批次数设置相同的情况下,随着一张图像中人/物数量的增加,模型前向推理的时间消耗变得更长。第三:传统HOI算法(以iCAN为例)中,对于人以及物体外观特征的提取,利用的是先卷积后切分的方法,但在多人多物场景数据集下,单个人与物所占的像素点较少,在整个图像中所占比例小,卷积层会过多捕捉到周围冗余背景信息,引入噪声,导致算法识别精度下降。

技术实现思路

[0004]本专利技术的目的在于克服上述现有技术的缺点,提供一种三阶段网络框架的单视角人

物交互的识别方法。
[0005]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0006]一种三阶段网络框架的单视角人

物交互的识别方法,所述三阶段网络框架第一阶段网络框架、第二阶段网络框架和第三阶段网络框架;所述第一阶段网络框架包括ResNet模型、自注意力机制模块、联合模块和全连接层;所述第二阶段网络框架包括池化层、联合模块和全连接层;所述第三阶段网络框架包括ResNet模型、联合模块和全连接层;识别方法由训练网络和使用训练好的网络进行识别组成,其中,训练网络包括以下步骤:
[0007]1)通过Faster R

CNN模型识别出图片中的人物位置信息、物体类别信息及其位置信息,Faster R

CNN模型同时根据人物位置信息输出人物图像;
[0008]所述人物图像依次经过第一阶段网络框架的ResNet模型和自注意力机制模块后输出人物图像的外观特征f
s

[0009]将人物位置信息使用多次下采样获取单通道的二进制矩阵人物位置信息f
l
,第一阶段网络框架的联合模块将所述f
s
和所述f
l
的进行联合,得到的联合特征输入第一阶段网络框架的全连接层中,所述全连接层对人物的行为进行初步分类,得到多标签的动作分类预测结果;
[0010]2)将人物位置信息进行拓展,获得局部拓展区域的位置信息和对应的人物局部拓展区域图像,将所述位置信息输入到第二阶段网络框架的池化层中,得到对应的特征;
[0011]第二阶段网络框架的联合模块将所述特征和所述联合特征进行联合,之后输入到第二阶段网络框架的全连接层,所述全连接层输出每个人物最关注物体的位置热力图,得到交互物体位置热力图;
[0012]3)将物体位置信息和人物局部拓展区域图像输入到第三阶段网络框架的ResNet网络中,所述ResNet网络输出拓展区域的图像特征,第三阶段网络框架的联合模块将所述拓展区域图像特征与所述交互物体位置热力图进行结合,之后通过第三阶段网络框架的全连接层输出修正后的人物行为类别,得到多标签的动作分类预测修正结果;
[0013]在以上训练过程中,计算所述多标签的动作分类预测修正结果和第一阶段网络框架输出的多标签的动作分类预测结果的Margin

Loss,同时使用Focal

Loss动态调节Margin间隔阈值,利用反向传播的方式对Faster R

CNN模型和三阶段网络框架进行优化;
[0014]4)重复步骤1)

步骤3),直至Margin

Loss稳定,完成训练,得到训练好的Faster R

CNN模型和三阶段网络框架;
[0015]使用训练好的网络进行识别包括以下操作:
[0016]将单张教室人物视角图片输入到训练好的Faster R

CNN模型,经Faster R

CNN模型输出的人物信息和物体信息输入到训练好的三阶段网络框架中,三阶段网络框架输出每一个人物的行为和交互物体结果。
[0017]进一步的,使用训练好的网络进行识别的具体过程为:
[0018]将单张教室人物视角图片输入到Faster R

CNN模型目标检测模型中,Faster R

CNN模型目标检测模型检测图片中的人物并输出每一个人物的人体坐标框b
o
,根据人物的坐标框b
o
截取人物部分图像以及相对应的LER图像;
[0019]将原始图片输入到第一阶段网络框架中的ResNet和自注意力机制模块,计算得到图像外观特征f
s
,将由Faster R

CNN模型获取的人物位置信息和人物图像信息输入到连续的池化层后得出人物位置信息特征f
l
,融合得到联合特征f
h
=[f
s
,f
l
];
[0020]将人物位置信息输入到第二阶段网络框架的池化层,提取人物具体信息在LER图像中的位置特征,将提取位置特征与f
h
进行融合,通过全连接层生成交互物体位置热力图,并进行二值化处理;
[0021]将LER区域图像输入到第三阶段网络框架的ResNet模型中,提取LER区域图像特征,将热力图与LER区域特征相乘,计算最终的融合特征f
all
,经过全连接层和激活函数,输出最终行为类别。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三阶段网络框架的单视角人

物交互的识别方法,其特征在于,所述三阶段网络框架第一阶段网络框架、第二阶段网络框架和第三阶段网络框架;所述第一阶段网络框架包括ResNet模型、自注意力机制模块、联合模块和全连接层;所述第二阶段网络框架包括池化层、联合模块和全连接层;所述第三阶段网络框架包括ResNet模型、联合模块和全连接层;识别方法由训练网络和使用训练好的网络进行识别组成,其中,训练网络包括以下步骤:1)通过Faster R

CNN模型识别出图片中的人物位置信息、物体类别信息及其位置信息,Faster R

CNN模型同时根据人物位置信息输出人物图像;所述人物图像依次经过第一阶段网络框架的ResNet模型和自注意力机制模块后输出人物图像的外观特征f
s
;将人物位置信息使用多次下采样获取单通道的二进制矩阵人物位置信息f
l
,第一阶段网络框架的联合模块将所述f
s
和所述f
l
的进行联合,得到的联合特征输入第一阶段网络框架的全连接层中,所述全连接层对人物的行为进行初步分类,得到多标签的动作分类预测结果;2)将人物位置信息进行拓展,获得局部拓展区域的位置信息和对应的人物局部拓展区域图像,将所述位置信息输入到第二阶段网络框架的池化层中,得到对应的特征;第二阶段网络框架的联合模块将所述特征和所述联合特征进行联合,之后输入到第二阶段网络框架的全连接层,所述全连接层输出每个人物最关注物体的位置热力图,得到交互物体位置热力图;3)将物体位置信息和人物局部拓展区域图像输入到第三阶段网络框架的ResNet网络中,所述ResNet网络输出拓展区域的图像特征,第三阶段网络框架的联合模块将所述拓展区域图像特征与所述交互物体位置热力图进行结合,之后通过第三阶段网络框架的全连接层输出修正后的人物行为类别,得到多标签的动作分类预测修正结果;在以上训练过程中,计算所述多标签的动作分类预测修正结果和第一阶段网络框架输出的多标签的动作分类预测结果的Margin

Loss,同时使用Focal

Loss动态调节Margin间隔阈值,利用反向传播的方式对Faster R

CNN模型和三阶段网络框架进行优化;4)重复步骤1)

步骤3),直至Margin

Loss稳定,完成训练,得到训练好的Faster R

CNN模型和三阶段网络框架;使用训练好的网络进行识别包括以下操作:将单张教室人物视角图片输入到训练好的Faster R

CNN模型,经Faster R

CNN模型输出的人物信息和物体信息输入到训练好的三阶段网络框架中,三阶段网络框架输出每一个人物的行为和交互物体结果。2.根据权利要求1所述的三阶段网络框架的单视角人

物交互的识别方法,其特点在于,使用训练好的网络进行识别的具体过程为:将单张教室人物视角图片输入到Faster R

CNN模型目标检测模型中,Faster R

CNN模型目标检测模型检测图片中的人物并输出每一个人物的人体坐标框b
o
,根据人物的坐标框b
o
截取人物部分图像以及相对应的LER图像;将原始图片输入到第一阶段网络框架中的ResNet和自注意力机制模块,计算得到图像外观特征f
s
,将由Faster R

CNN模型获取的人物位置信息和人物图像信息输入到连续的池
化层后得出人物位置信息特征f
l
,融合得到联合特征f
h
=[f
s
,f
l
];将人物位置信息输入到第二阶段网络框架的池化层,提取人物具体信息在LER图像中的位置特征,将提取位置特征与f
h
进行融合,通过全连接层生成交互物体位置热力图,并进行二值化处理;将LER区域图像输入到第三阶段网络框架的ResNet模型中,提取LER区域图像特征,将热力图与LER...

【专利技术属性】
技术研发人员:田锋王耀智张吉仲南方洪振鑫吴砚泽郑庆华
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1