【技术实现步骤摘要】
一种基于深度学习的人物交互检测方法
本专利技术涉及计算机视觉和人物交互检测的
,尤其涉及一种基于深度学习的人物交互检测方法。
技术介绍
行为识别在计算机视觉领域颇受关注,但是基于视频的行为识别大多是检测一个不足以代表真实生活场景的简单动作,扩展基于RGB图像的人类行为识别成为可行及必然的任务。人物交互检测(HOIDetection)要求模型明确地定位图像中人与物体的位置,同时正确预测其交互行为。通过研究人物交互检测来模拟人类认识周围世界的方式,可以促进服务型机器人技术的研究。同时,识别图像蕴含的人物交互行为,是实现机器自动理解图像主题、自动描述图像主要内容的关键技术之一。近年来,随着深度学习的发展和人物交互检测数据集的公布,为高精度人物交互检测方法带来了新思路。基于深度学习的人物交互检测,大多通过提取人与物体的区域特征和人与物体粗糙的空间特征进行人物交互检测(例如iCAN),但是这些算法精度不高。为了进一步提高算法精度,PMFNet在人物交互检测中融入人体姿态信息,但是从不同角度、以不同焦距拍摄的同一人物交互行 ...
【技术保护点】
1.一种基于深度学习的人物交互检测方法,其特征在于:该方法包括以下阶段:/n(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;/n(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,/nSKA-Net突出特征有:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以 ...
【技术特征摘要】
1.一种基于深度学习的人物交互检测方法,其特征在于:该方法包括以下阶段:
(1)目标检测:对RGB图像中的对象实例进行目标检测,以获取对象的检测框、对象类别和对象检测得分,并提供给人物交互检测阶段进行<人-物体>对实例的人物交互检测;
(2)人物交互检测:通过基于深度学习的人物交互检测算法SKA-Net来进行人物交互检测,
SKA-Net突出特征有:其一,基于生活场景的人物交互实例构建面向人物交互检测的语义知识图,并使用图卷积网络GCN对人物交互语义知识图进行学习后融入视觉特征,使视觉特征具备人物交互语义先验知识,引导SKA-Net准确地预测人物交互行为以及更好的预测类别长尾数据;其二,使用正负样本对学习策略,通过对视觉特征的设计抽象出动词表示特征,来表示不同交互类行为和非交互类行为;其三,使用空间特征作为一种先验知识分别引导人的特征、物体特征和抽象动词表示特征的优化,使视觉特征关注与人物交互行为更相关的区域特征,
过滤与人物交互行为无关的区域特征;
所述阶段(1)中,使用在COCO数据集上预训练的FasterR-CNN作为目标检测器;
所述阶段(2)中,SKA-Net的输入为RGB图像人的检测框信息物体的检测框信息输出为图像中所有的<人-物体>对实例的交互行为得分用公式(1)描述:
其中,为图像中m个人的集合,为图像中n个物体的集合,函数对应SKA-Net算法模型,表示m个人与n个物体交互所产生的m*n个<人-物体>对实例的交互行为得分。
2.根据权利要求1所述的基于深度学习的人物交互检测方法,其特征在于:SKA-Net采用多流网络结构,多流网络结构由人流、语义&物体流、动词流和空间流构成;为了得到各分支的输入特征,使用残差网络ResNet50提取所需要的视觉特征;原始输入图像首先经过目标检测网络FasterR-CNN进行目标检测,获得原始输入图像的人、物体检测框信息后将标记有人、物体位置的图像输入ResNet50网络提取图像的全局特征图,并对全局特征图中人、物体位置进行感兴趣池化ROIPooling操作以提取人、物体区域的特征图,最后对特征图进行最大池化MaxPooling操作得到最终的人、物体特征图;为了得到人、物体的视觉特征向量,使用Res5残差块对人、物体特征图进行优化并使用全局平均池化层GAP将特征图池化为f维向量Ff,其中Ff表示人、物体的f维视觉特征向量。
3.根据权利要求2所述的基于深度学习的人物交互检测方法,其特征在于:对于空间流分支,输入为目标检测输出的所有<人、物体>配对后的位置信息所编码的空间特征图Msp,空间特征图Msp的编码规则为:对于每一对<人、物体>对,空间特征图的第一通道称为人通道,对应人的检测框内的像素为1、检测框外的像素为0;空间特征图的第二通道称为物体通道,对应物体的检测框内的像素为1、检测框外的像素为0;最后取人和物体的检测框所构成的最小包围区域作为空间特征图的有效区域,并缩放为(64,64,2)的大小;
Msp通过浅层卷积神经网络fcnn进行特征提取,并通过两个全连接层及Sigmoid非线性激活函数对<人-物体>空间特征进行人物交互检测,用公式(2)、(3)描述:
其中,表示全连接层参数矩阵。
4.根据权利要求3所述的基于深度学习的人物交互检测方法,其特征在于:对于人流分支,输入为人的f维视觉特征向量通过两个全连接层进行特征增强后采用Sigmoid非线性激活函数计算人流特征...
【专利技术属性】
技术研发人员:孔德慧,王志凯,吴永鹏,王少帆,李敬华,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。