【技术实现步骤摘要】
一种基于非对称多流的动作检测方法
本专利技术属于计算机视觉与模式识别
,特别涉及一种基于非对称多流的动作检测方法。
技术介绍
对视频动作的发现和分割是视频处理领域中重要的研究内容,被广泛运用在动作追踪和发现中,具有很大的理论研究价值和实际应用价值。其中,利用弱监督数据实现的动作检测方法只需要少量人工标注就可以获得很好的性能。弱监督实现的动作检测方法从视频级别的标签进行建模,通过注意力机制判断视频帧是否包含动作。为了对帧建模,大多数方法首先对视频序列进行处理,提取图像流和光流并融合,接着利用视频标签训练,再根据视频帧对网络逐帧进行激活判别。在弱监督动作检测方法中,传统的双流结合方式将双流看作是对称的,带来了很强的过拟合,无法准确定位动作。
技术实现思路
本专利技术的目的在于提供一种基于非对称多流的动作检测方法,以解决上述存在的一个或多个技术问题。本专利技术的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。为达到上述目的,本专利技术采用以下技术方案:一种基于非对称多流的动作检测方法,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动 ...
【技术保护点】
1.一种基于非对称多流的动作检测方法,其特征在于,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络, ...
【技术特征摘要】
1.一种基于非对称多流的动作检测方法,其特征在于,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。2.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;将主信息流与辅助信息流拼合获得双流特征信息。3.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤6中还包括:使用阈值将获得的动作识别序列中的误动作剔除,获得剔除误动作后的动作识别序列;对剔除误动作后的动作识别序列进行最近邻插值,获得与目标视频帧数一一对应的激活序列;根据激活序列提取获得动作片段和动作片段置信度。4.根据权利要求3所述的一种基于非对称多流的动作检测方法,其特征在于,步骤6中使用的阈值为经验值或自适应阈值;其中,自适应阈值在非对称双流网络训练时统计,具体步骤包括:预设自适应阈值比例为pth,pth表示自适应阈值所对应的分位数,分位数为小于1大于0的小数;统计所有先验视频的注意力权重,注意力权重序列其中λt为序列中得第t位;对序列K重新排序,使得λi<λj,i<j,其中i,j为排序后得序号;取排在第[m*pth]位的权重为自适应权重;其中,[]表示取整。5.根据权利要求2所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3中,非对称双流网络的训练过程包括:对输入的多流信息非对称降维和融合,所述多流信息包括主信息流和辅助信息...
【专利技术属性】
技术研发人员:王乐,康子健,刘子熠,郑南宁,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。