一种基于非对称多流的动作检测方法技术

技术编号:22167950 阅读:22 留言:0更新日期:2019-09-21 11:01
本发明专利技术公开了一种基于非对称多流的动作检测方法,包括以下步骤:从先验视频中提取RGB图像和光流,训练获得训练好的RGB图像单流网络和光流单流网络;提取先验视频中每帧的图像流特征信息和光流特征信息,结合动作标签,训练非对称双流网络;通过训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息,获得目标视频的段特征并输入训练好的非对称双流网络,计算获得视频分类向量;从视频分类向量中选择出潜在动作,获得潜在动作的动作识别序列;通过动作识别序列完成动作的检测。本发明专利技术的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。

An Asymmetric Multi-stream Action Detection Method

【技术实现步骤摘要】
一种基于非对称多流的动作检测方法
本专利技术属于计算机视觉与模式识别
,特别涉及一种基于非对称多流的动作检测方法。
技术介绍
对视频动作的发现和分割是视频处理领域中重要的研究内容,被广泛运用在动作追踪和发现中,具有很大的理论研究价值和实际应用价值。其中,利用弱监督数据实现的动作检测方法只需要少量人工标注就可以获得很好的性能。弱监督实现的动作检测方法从视频级别的标签进行建模,通过注意力机制判断视频帧是否包含动作。为了对帧建模,大多数方法首先对视频序列进行处理,提取图像流和光流并融合,接着利用视频标签训练,再根据视频帧对网络逐帧进行激活判别。在弱监督动作检测方法中,传统的双流结合方式将双流看作是对称的,带来了很强的过拟合,无法准确定位动作。
技术实现思路
本专利技术的目的在于提供一种基于非对称多流的动作检测方法,以解决上述存在的一个或多个技术问题。本专利技术的动作检测方法,考虑到了图像流和光流之间的不对称性,可提升动作识别和动作检测的准确率。为达到上述目的,本专利技术采用以下技术方案:一种基于非对称多流的动作检测方法,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。本专利技术的进一步改进在于,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;将主信息流与辅助信息流拼合获得双流特征信息。本专利技术的进一步改进在于,步骤6中还包括:使用阈值将获得的动作识别序列中的误动作剔除,获得剔除误动作后的动作识别序列;对剔除误动作后的动作识别序列进行最近邻插值,获得与目标视频帧数一一对应的激活序列;根据激活序列提取获得动作片段和动作片段置信度。本专利技术的进一步改进在于,步骤6中使用的阈值为经验值或自适应阈值;其中,自适应阈值在非对称双流网络训练时统计,具体步骤包括:预设自适应阈值比例为pth,pth表示自适应阈值所对应的分位数,分位数为小于1大于0的小数;统计所有先验视频的注意力权重,注意力权重序列其中λt为序列中得第t位;对序列K重新排序,使得λi<λj,i<j,其中i,j为排序后得序号;取排在第[m*pth]位的权重为自适应权重;其中,[]表示取整。本专利技术的进一步改进在于,步骤3中,非对称双流网络的训练过程包括:对输入的多流信息非对称降维和融合,所述多流信息包括主信息流和辅助信息流;其中,非对称降维表示不同流信息降维比例不同,融合指使用相加、拼接或神经网络合并特征向量;使用分类神经网络处理融合了非对称双流信息的特征向量,输出对应输入特征的分类向量x和注意力权重λ;通过softmax方法对分类向量和注意力权重归一化;通过对来自视频中多个的分类向量和注意力权重进行加权求和,获得视频分类向量。本专利技术的进一步改进在于,步骤3中,获得辅助信息流的步骤包括:将输入的光流特征和图像流特征降维,使用全连接或双线性神经网络融合降维的光流特征和特性特征;另外,辅助信息流降维比例大于主信息流的降维比例;辅助信息流降维比例大于0且小于1/4。本专利技术的进一步改进在于,非对称双流网络包括:降维网络,用于对输入特征进行降维;分类网络,用于输出对应帧的多流分类向量和多流注意力权重;融合网络,用于融合光流特征和图像流特征,以及用于融合主信息流和辅助信息流;其中,融合方式包括使用双线性网络或相加或向量拼接的方法。本专利技术的进一步改进在于,非对称双流网络中,降维网络为一层或多层全连接网络,通过改变全连接网络的输出维度,降级输出向量的维度;分类网络为一层或多层全连接网络;融合网络的输入向量和合并向量使用一层或多层全连接层对信息进行转换、增维和降维,用于使融合的信息具有更高非线性性;其中,双线性网络和全连接层包括归一化函数,对应的双线性或线性变换,以及对应的非线性函数。本专利技术的进一步改进在于,步骤3中在训练非对称多流网络前还包括:将步骤2获得的图像流特征信息和光流特征信息分段及采样,获得段特征;将视频包含的动作标注在段特征上获得训练数据;采用降维网络对特征进行降维,获得降维后的图像流特征信息和光流特征信息;其中,对于图像流和光流,主信息流和辅助信息流,降维比例;将降维后的或原始(降维比例为0)光流特征信息作为主数据流;将降维后的图像流特征信息和降维后的光流特征信息输入融合网络融合,例如使用双线性神经网络作为融合网络,输出降维后的双流特征信息;将双流特征信息作为辅助特征流;将双流特征信息与降维后的光流特征信息拼接获得非对称多流网络的特征信息。本专利技术的进一步改进在于,步骤1具体包括:步骤1.1,确定需要识别的动作列表,收集包含目标动作相关的先验视频数据;将先验视频切割成视频频段,标记视频片段中出现的动作;将视频片段转换为图像信息和光流信息,对视频片段采样,获得用于训练单流网络的图像信息和光流信息;其中,每个视频频段至少出现一个动作;步骤1.2,将步骤1.1采样获得图像信息和光流信息分别输入卷积神经网络,训练获得RGB图像单流网络和单流网络;其中,卷积神经网络的训练过程包括:输出分类向量和注意力权重标量,使用softmax方法对注意力加权输出分类结果;用交叉熵作为损失函数计算权重的梯度,通过梯度下降方法优化神经网络参数,最小化期望误差。与现有技术相比,本专利技术具有以下有益效果:本专利技术的基于非对称多流的动作检测方法,利用弱监督训练对视频动作发现和分割,即使用视频级别的标签训练模型来拟合动作序列;使用深度神经网络模型对动作序列建模,输出动作发现序列,可提升动作识别和动作检测的准确率,同时具有较高的可靠性和鲁棒性。本专利技术采用的非对称多流结合方法考虑到了图像流和光流之间的不对称性,在对实际视频序列建模时,能够保证图像流和光流都对建模产生正面效益;使用双线性函数等进行双流融合和建模,本文档来自技高网...

【技术保护点】
1.一种基于非对称多流的动作检测方法,其特征在于,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。...

【技术特征摘要】
1.一种基于非对称多流的动作检测方法,其特征在于,包括以下步骤:步骤1,采集若干已标注视频标签的先验视频,从先验视频的帧信息中提取RGB图像和光流;通过提取的RGB图像并结合视频标签训练卷积神经网络,获得训练好的RGB图像单流网络;通过提取的光流并结合视频标签训练卷积神经网络,获得训练好的光流单流网络;步骤2,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取步骤1采集的先验视频中每帧的图像流特征信息和光流特征信息;步骤3,根据步骤2提取的图像流特征信息和光流特征信息,并结合动作标签,训练非对称双流网络,最终获得训练好的非对称双流网络;其中,非对称双流网络训练的过程包括:将图像流特征信息和光流特征信息结合作为输入,输出多流分类结果和多流注意力权重,加权多流分类结果获得视频分类向量,最小化非对称双流网络的损失函数;步骤4,通过步骤1获得的训练好的RGB图像单流网络和光流单流网络,分别提取待检测的目标视频中每帧的图像流特征信息和光流特征信息;步骤5,根据步骤4提取的图像流特征信息和光流特征信息,获得目标视频的段特征;将目标视频的段特征输入步骤3获得的训练好的非对称双流网络,输出段分类向量和段注意力权重;根据段分类向量和段注意力权重计算获得视频分类向量;步骤6,从步骤5获得的视频分类向量中选择置信度大于预设值的动作作为潜在动作;其中,对于潜在动作a,从步骤5中获得的段分类向量中抽取潜在动作a的分类权重,获得潜在动作a的动作识别序列;通过潜在动作a的动作识别序列完成动作a的检测。2.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3的非对称双流网络训练的过程中,图像流和光流信息结合的方式为:将光流特征信息作为主信息流;将图像流特征信息和光流特征信息进行降维与融合后,作为辅助信息流;将主信息流与辅助信息流拼合获得双流特征信息。3.根据权利要求1所述的一种基于非对称多流的动作检测方法,其特征在于,步骤6中还包括:使用阈值将获得的动作识别序列中的误动作剔除,获得剔除误动作后的动作识别序列;对剔除误动作后的动作识别序列进行最近邻插值,获得与目标视频帧数一一对应的激活序列;根据激活序列提取获得动作片段和动作片段置信度。4.根据权利要求3所述的一种基于非对称多流的动作检测方法,其特征在于,步骤6中使用的阈值为经验值或自适应阈值;其中,自适应阈值在非对称双流网络训练时统计,具体步骤包括:预设自适应阈值比例为pth,pth表示自适应阈值所对应的分位数,分位数为小于1大于0的小数;统计所有先验视频的注意力权重,注意力权重序列其中λt为序列中得第t位;对序列K重新排序,使得λi<λj,i<j,其中i,j为排序后得序号;取排在第[m*pth]位的权重为自适应权重;其中,[]表示取整。5.根据权利要求2所述的一种基于非对称多流的动作检测方法,其特征在于,步骤3中,非对称双流网络的训练过程包括:对输入的多流信息非对称降维和融合,所述多流信息包括主信息流和辅助信息...

【专利技术属性】
技术研发人员:王乐康子健刘子熠郑南宁
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1