基于多特征融合的图像中人物交互检测方法技术

技术编号：30015564 阅读：102 留言：0更新日期：2021-09-11 06:22

本发明专利技术公开了一种基于多特征融合的图像中人物交互检测方法，利用目标检测算法检测出图片中所有实例信息，包括人体位置信息以及物体位置和类别信息等，然后输入训练好的人物交互行为识别网络，检测待测图片中人物对之间的交互行为。本发明专利技术在利用位姿捕获交互关系的全局空间配置的基础上，关注于人与物体交集区域提供的有效信息，学习更加精细的局部特征，增加了正确人物交互对匹配的概率，并借助短期记忆选择模块对人和物体及其背景区域信息进行有效的筛选利用，通过各类特征的融合，提高了人物交互检测的精度。人物交互检测的精度。人物交互检测的精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于多特征融合的图像中人物交互检测方法

[0001]本专利技术属于利用计算机视觉进行图像中视觉关系检测和理解的
，具体涉及一种基于多特征融合的图像中人物交互检测方法。

技术介绍

[0002]图像中的人物交互(Human
‑
Object Interaction，HOI)检测的目标是利用计算机视觉自动检测出输入图片中发生交互的人、物体等目标的具体位置，并识别出<人
‑
物体>对之间的交互行为类别，从而实现机器对图像内容的自动理解。人物交互检测是通过计算机视觉自动理解深层次视觉关系、实现高级人工智能的核心技术，可广泛应用于智能机器人、安全监控、信息检索、人机交互等诸多领域。
[0003]现有的人物交互检测方法大多数是从目标检测的结果出发，将图中所有的人和物体完全配对，提取出人和物体的特征，以及<人
‑
物体>对间的空间特征来推测人与物体之间的交互行为。这种仅依靠实例级特征的推测方式在处理相对复杂的交互类时仍存在不足，导致整体检测精度不高。首先，由于缺乏细节线索，难以确定具有实例级别表示的人与物体实例的相关性，容易导致人和未发生交互物体之间的错误关联。另外，仅依靠相似的实例级特征来区分精细粒度的交互类型时，特征之间的内在联系未被有效利用，无法对复杂情况进行准确判断。

技术实现思路

[0004]为了解决现有技术问题，本专利技术的目的在于克服已有技术存在的不足，提供一种基于多特征融合的图像中人物...

【技术保护点】

【技术特征摘要】
1.一种基于多特征融合的图像中人物交互检测方法，其特征在于：其操作步骤为：步骤1：输入原始图片；步骤2：目标检测；步骤3：构建人物交互识别网络；步骤4：检测待测图片人物交互行为；在所述步骤2中，利用目标检测算法检测出图片中所有实例信息，包括人体位置信息以及物体位置和类别信息后，输入训练好的人物交互行为识别网络，检测待测图片中人物对之间的交互行为；在所述步骤3中，人物交互识别网络采用多支流神经网络结构，包括成对支流、交集支流和短期记忆选择支流，网络对图片中<人
‑
物体>实例对各类特征进行了学习训练。2.根据权利要求1所述的基于多特征融合的人物交互检测方法，其特征在于：在所述步骤2中，目标检测的过程为：采用训练好的目标检测器对输入图片进行目标检测，得到人的候选框b
h
以及人的置信度s
h
和物体的候选框b
o
以及物体的置信度s
o
，其中下标h表示人体、o表示物体。3.根据权利要求1所述的基于多特征融合的人物交互检测方法，其特征在于：在所述步骤3中，构建人物交互识别网络包括以下步骤：1)提取整张图片卷积特征：使用经典残差网络ResNet
‑
50对原始输入图片进行卷积特征提取，得到整张图片的全局卷积特征图F，与目标检测结果的人体位置b
h
、物体位置b
o
一起作为人物交互检测网络的输入；2)构建成对支流：根据给定的人物边界框生成一幅具有两个通道的二进制图像B
h,o
，将其输入包含两个卷积层两个池化层的浅层卷积神经网络，两个卷积层卷积核大小都是5
×
5，卷积核的数量分别为64和32，池化层均为最大池化；然后经过平铺位置特征图，得到位置特征向量f
sp
，其中下标sp表示人和物体相对位置，之后将向量输入全连接层分类器和sigmoid激活函数得到位置特征支流在各交互类别上分类结果其中上标a∈{1,...,A}是所对应的交互类别，其中A是所有交互类别数；3)构建交集支流：首先根据人与物体位置求取人物对交集边界框坐标b
inter
，其中下标inter表示人与物体的交集，并利用感兴趣区域池化操作ROI Pooling在全局卷积特征图F上截取交集区域卷积特征，之后使用残差块Res对特征进行优化，并通过全局平均池化层GAP后得到人物对交集区域特征f
inter
；同时，对图片人体关键点检测结果进行编码，在每个人物对的最小外接矩形框中，模型对不同关节点之间按COCO数据集提供的骨架模型用不同灰度值的连线连接，用于表征身体的不同部位，其中COCO数据集是由微软公司制作的适用于各类计算机视觉任务的大型公开数据集；矩形框内其余区域像素值都设为0，并且将矩形框调整至一个固定尺度64
×
64，得到位姿特征图；然后通过两个卷积池化层提取位姿特征f
pose
，其中下标pose表示人体位姿，两个卷积层卷积核大小都是5
×
5，卷积核的数量分别为32和16，池化层均采用最大池化；然后将交集区域特征f
inter
与位姿特征f
pose
进行拼接并通过两个全连接层进行特
征融合得到f
inte...

【专利技术属性】
技术研发人员：马世伟，汪畅，孙金玉，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人