【技术实现步骤摘要】
基于自适应采样与推理的长视频高效识别系统与方法
本专利技术涉及视频识别
,具体涉及一种基于自适应采样与推理的长视频识别系统与方法。
技术介绍
随着在线视频的爆炸式增长,视频识别因其广泛的应用场景,如视频推荐,视频检索和网络安全等,而受到了大量关注。然而,虽然经典视频识别模型具有令人印象深刻的性能,但这些模型的过度复杂性和计算成本限制了许多资源有限的应用程序中的部署,例如边缘计算,在线视觉等。因此,设计高效的视频识别模型以保持识别准确性,同时最小化计算成本变得至关重要,特别是对于未修剪的长视频。然而,目前大多数视频识别系统及方法并未考虑到识别的效率以及计算量的消耗,如文献[1]训练了一个基于CNN的不同行为的识别库对取样的视频片段进行识别,得到不同行为出现的概率;文献[2]分别对视觉特征和音频特征进行编码,进一步进行拼接后基于自注意力机制进行进一步的特征编码,最终识别出高光视频片段。部分高效视频识别方法针对推理的效率进行了改进,可以准确有效地实现快照或剪辑识别,但它们还无法在较长的时间尺度上有效地处理未剪辑的视频。现有的 ...
【技术保护点】
【技术特征摘要】
1.一种基于自适应采样与推理的长视频高效识别系统,其特征在于,包括视频预处理模块、局部特征提取模块、全局语义推理模块和视频分类模块;视频预处理模块将视频解码为视频帧,输出尺寸标准化的视频帧序列;局部特征提取模块在视频帧序列上均匀地初始化N个采样器,每个采样器都采用一个局部上下文网络对它所观测的视频帧编码;局部特征提取模块通过采样器定位不同的局部事件;N为正整数;当所有采样器停止后,所有局部上下文网络的隐藏状态被拼接后输入全局语义推理模块;全局语义推理模块在多个局部事件的基础上,推理整部视频全局的语义特征;全局语义推理模块采用多层Transformer的编码器,将该编码器最后一层编码层输出的隐藏特征,作为视频全局语义特征输出给视频分类模块;视频分类模块采用一个单层全连接网络作为分类器,根据视频全局语义特征识别视频的类别。2.根据权利要求1所述的一种基于自适应采样与推理的长视频高效识别系统,其特征在于,所述的采样器包含策略网络f
p
和评价网络f
r
,策略网络和评价网络都由全连接网络组成;所述的局部上下文网络包含一个基于卷积神经网络的特征提取器和一个上下文网络,局部上下文网络的参数在所有采样器之间共享;设特征提取器对策略网络f
p
在时间步长t所选择的帧提取特征o
t
,上下文网络基于LSTM设计实现,用于建模局部事件的时间因果关系,上下文网络根据特征o
t
,以及前一时间步长的隐藏状态h
t
‑1和细胞状态c
t
‑1来计算当前的隐藏状态h
t
和细胞状态c
t
,表示如下:h
t
,c
t
=LSTM(o
t
,h
t
‑1,c
t
‑1;θ
l,i
)其中,θ
l,i
为采样器i对应的上下文网络的参数;设在时间步长t时,采样器i对应的上下文网络的隐藏状态为采样器i观测的帧的累计数量为在时间步长t,采样器i根据策略网络f
p
产生的策略分布,选择行动来决定接下来的观测帧或者停止观测,策略分布表示为其中,θ
p,i
是采样器i的策略网络参数;行动空间是{0,δ,2δ,3δ},当选择0时,采样器停止,当选择nδ时,采样器向后跳跃nδ帧进行下一时刻的帧观测,δ表示最小移动帧数;评价网络f
r
用于在训练阶段评估策略网络f
p
所选行动的价值,帮助策略网络优化。3.根据权利要求1或2所述的一种基于自适应采样与推理的长视频高效识别系统,其特征在于,所述的全局语义推理模块中,第k编码层中,隐藏特征h
k
和中间状态h
′
k
由前一编码层的隐藏特征h
k
‑1前向推理获得,如下:h
′
k
=MSA(LN(h
k
‑1))+h
k
‑1h
k
=MLP(LN(h
′
k
))+h
′
k
其中,MSA代表多头自注意力机制,LN代表层的归一化,MLP表示感知机。4.根据权利要求1或2所述的一种基于自适应采样与推理的长视频高效识别系统,其特征在于,所述的局部特征提取模块、全局语义推理模块和视频分类模块进行整体训练,训练过程分为三个阶段,分别为骨干网络训练阶段、策略网络训练阶段和微调阶段;在骨干网络训练阶段,冻结采样器中策略网络的参数,使用随机抽样策略训练骨干网络;骨干网络包括采样器中的局部上下文网络、全局语义推理模块以及视频识别模块;在策略网络训练阶段,
固定骨干网络的全部参数,对局部的视频帧采样,训练策略网络;在微调阶段,对骨干网络和策略网络进行交替微调训练。5.根据权利要求4所述的一种基于自适应采样与推理的长视频高效识别系统,其特征在于,所述的骨干网络在训练时,采用标准的交叉熵损失评估预测效果;所述的策略网络在训练的时候,采用多目标奖励函数对采样器选取的观测帧进行奖励;在时间步长t,所有采样器的奖励其中,和分别表示在时间步长t和t
‑
1的视频预测分布中视频真实标签对应的概率,λ为识别精度与效率的平衡因子,N
t
为所有采样器观测帧数之和;训练策略网络的目标是为每个状态选择动作,使未来的奖励和策...
【专利技术属性】
技术研发人员:张蓝姗,杨萌宇,刘洋,田野,王文东,阙喜戎,龚向阳,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。