【技术实现步骤摘要】
一种面向视频的三流式人体运动行为空间域检测方法
本专利技术涉及行为检测领域,尤其是涉及一种面向视频的三流式人体运动行为空间域检测方法。
技术介绍
随着多媒体技术的迅猛发展,视频数据呈爆炸式增长,以Youtube为例,截至2018年,该网站仅一分钟上传的视频总时长就高达500多个小时,如何理解分析这么庞大的数据,即视频理解,成为人们越来越感兴趣的研究课题。空间域行为检测作为视频理解的重要手段之一,主要解决的任务包括对视频中出现的行为进行分类并定位行为发生在视频具体帧上的具体位置。这一任务目前仍然面临着许多挑战,如合适的训练数据集少、类内变化多样、视频背景噪声大、视频视角变化等等。鉴于CNN(ConvolutionalNeuralNetworks,卷积神经网络)对于视频表征的鲁棒性以及目标检测与行为检测之间的相关性,目前的空间域行为检测方法都是基于CNN架构的目标检测器来检测人体行为的,此外,由于双流结构在行为识别任务中起到的捕捉时间信息的作用,该结构经常与目标检测器结合用于行为检测。大多数行为检测方法将视频视作一帧一帧进行处理,这类方法对某些待检测行为具有混淆性,比 ...
【技术保护点】
1.一种面向视频的三流式人体运动行为空间域检测方法,其特征在于,包括以下步骤:输入准备步骤,获取输入视频,根据原图获取对应的光流和人体语义分割图,形成三流式输入,包括RGB流、Flow流和Pose流;行为检测步骤,在每个时间步上,将RGB流、Flow流和Pose流经各自流上的检测器进行检测,得到检测结果,所述检测结果包括分类得分和检测小管回归值;三流融合步骤,对三条流上的分类得分进行不平等权重融合,获得融合得分,并以原图的检测小管回归值作为融合回归值,并结合所述融合得分与融合回归值获得每个时间步的行为检测小管;行为管构建步骤,连接每个时间步的行为检测小管,构建最终视频行为检测管。
【技术特征摘要】
1.一种面向视频的三流式人体运动行为空间域检测方法,其特征在于,包括以下步骤:输入准备步骤,获取输入视频,根据原图获取对应的光流和人体语义分割图,形成三流式输入,包括RGB流、Flow流和Pose流;行为检测步骤,在每个时间步上,将RGB流、Flow流和Pose流经各自流上的检测器进行检测,得到检测结果,所述检测结果包括分类得分和检测小管回归值;三流融合步骤,对三条流上的分类得分进行不平等权重融合,获得融合得分,并以原图的检测小管回归值作为融合回归值,并结合所述融合得分与融合回归值获得每个时间步的行为检测小管;行为管构建步骤,连接每个时间步的行为检测小管,构建最终视频行为检测管。2.根据权利要求1所述的面向视频的三流式人体运动行为空间域检测方法,其特征在于,所述光流的获取方法具体为:利用Brox光流法计算每一帧原图对应的光流,所得光流的水平分量、垂直分量以及绝对值构成一张图像的三个维度,对图像进行比例调整,并转化到0值到255值的范围内。3.根据权利要求1所述的面向视频的三流式人体运动行为空间域检测方法,其特征在于,所述人体语义分割图的获取方法具体为:将原图输入经训练的Fast-Net网络,输出的结果中每个标签被映射到一个预先设定的RGB值上,从而将网络生成结果转换为三维图像。4.根据权利要求1所述的面向视频的三流式人体运动行为空间域检测方法,其特征在于,所述行为检测步骤中,在每个时间步上,RGB流以K帧连续原图像作为检测器的输入,Flow流以K×5张连续光流图作为检测器的输入,Pose流以K张对应原图的人体语义分割图作为检测器的输入。5.根据权利要求1所述的面向视频的三流式人体运动行为空间域检测方法,其特征在于,所述行为检测步骤中,检测器对输入经SSD卷积层进行特征提取,来自同一特征层的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。