当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于自适应推理的视频识别方法和装置制造方法及图纸

技术编号:32824088 阅读:17 留言:0更新日期:2022-03-26 20:23
本申请提供了一种基于自适应推理的视频识别方法和装置,属于视频分析技术领域。本申请实施例使用全局特征提取网络提取视频流中的每帧图像的粗粒度全局特征图后,使用策略网络将包含目标物体的初始局部区域图像裁剪出来,再通过局部特征提取网络提取细粒度局部特征图,并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作,得到融合特征向量,最后利用分类器根据融合特征向量,确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例能够有效识别出每帧图像中信息量最丰富的目标局部图像,并输出对应的预测标签,实现对每帧图像的自适应在线推理,并通过压缩每帧图像的空间冗余信息,有效降低推理时延和计算量。效降低推理时延和计算量。效降低推理时延和计算量。

【技术实现步骤摘要】
一种基于自适应推理的视频识别方法和装置


[0001]本申请涉及视频分析
,特别是涉及一种基于自适应推理的视频识别方法和装置。

技术介绍

[0002]目前,得益于深度神经网络技术的飞速发展,精确的视频识别算法被广泛应用于生产生活的各个领域。然而,这类算法专注于使用更大更深更复杂的网络来提升视频识别算法的精度,而忽略了实际应用中计算资源的瓶颈。在视频识别广泛的应用场景中,如安防、动态捕捉等,基于大型视频识别神经网络的算法往往需要部署在计算资源有限的边缘设备上。而这些边缘设备在运行大型神经网络的算法时,往往存在虽然精度高,但是计算资源消耗大、模型推理速度慢的问题。

技术实现思路

[0003]本申请提供一种基于自适应推理的视频识别方法和装置,以解决视频识别任务中计算资源消耗大、模型推理速度慢的问题。
[0004]为了解决上述问题,本申请采用了以下的技术方案:
[0005]第一方面,本申请实施例提供了一种基于自适应推理的视频识别方法,应用于神经网络,所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器,所述方法包括:
[0006]以视频流中的每一帧图像为当前帧图像;通过所述全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到所述策略网络;
[0007]所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到所述局部特征提取网络;
[0008]所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
[0009]所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到所述分类器;
[0010]所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
[0011]在本申请一实施例中,所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像的步骤,包括:
[0012]所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表
征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;
[0013]根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。
[0014]在本申请一实施例中,所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括:
[0015]获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;
[0016]通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;
[0017]将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。
[0018]在本申请一实施例中,所述策略网络的训练过程包括:
[0019]获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;
[0020]所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;
[0021]所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。
[0022]在本申请一实施例中,所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络的步骤包括:
[0023]通过以下奖励函数,获得所述分类结果对应的折扣奖励:
[0024][0025]式中:表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;r
t
表示t时刻对应的第二初始局部区域图像的奖励值;p
ty
表示t时刻对应的第二初始局部区域图像的分类器置信度;表示t时刻对应的第二初始局部区域图像对应的误差期望;
[0026]通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:
[0027][0028]式中:r
t
表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;表示累积的折扣奖励的和;π表示策略网络。
[0029]第二方面,基于相同专利技术构思,本申请实施例提供了一种基于自适应推理的视频识别装置,所述装置包括:
[0030]第一特征提取模块,用于以视频流中的每一帧图像为当前帧图像;通过全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到策略网络;
[0031]第一裁剪模块,用于通过所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到局部特征提取网络;
[0032]第二特征提取模块,用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;
[0033]特征融合模块,用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到分类器;
[0034]结果输出模块,用于通过所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。
[0035]在本申请一实施例中,所述第一裁剪模块包括:
[0036]确定子模块,用于通过所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应推理的视频识别方法,其特征在于,应用于神经网络,所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器,所述方法包括:以视频流中的每一帧图像为当前帧图像;通过所述全局特征提取网络对所述当前帧图像进行特征提取,得到粗粒度全局特征图,并将所述粗粒度全局特征图输入到所述策略网络;所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像,并将所述初始局部区域图像输入到所述局部特征提取网络;所述局部特征提取网络对所述初始局部区域图像进行特征提取,得到细粒度局部特征图,对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作,分别得到全局特征向量和局部特征向量,并将所述全局特征向量和所述局部特征向量输入到级联网络;所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作,得到融合特征向量,并将所述融合特征向量输入到所述分类器;所述分类器根据所述融合特征向量,确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。2.根据权利要求1所述的方法,其特征在于,所述策略网络对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像的步骤,包括:所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量,确定所述当前帧图像的初始局部区域图像的坐标信息,其中,所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息;根据所述当前帧图像的初始局部区域图像的坐标信息,对所述粗粒度全局特征图进行裁剪,得到包含目标物体的初始局部区域图像。3.根据权利要求1所述的方法,其特征在于,所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括:获得第一视频训练数据集,并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取,得到第一初始全局特征图,并通过最小化交叉熵误差,以实现对所述第一初始特征提取网络的模型参数的迭代更新,最终得到所述全局特征提取网络;通过二维均匀分布对所述第一初始全局特征图进行随机采样,以得到第一初始局部区域图像,并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练,得到初始局部特征图,并通过最小化交叉熵误差,以实现对所述第二初始特征提取网络的模型参数的迭代更新,最终得到所述局部特征提取网络;将所述初始局部特征图输入到初始分类器进行预训练,并通过最小化交叉熵误差,以实现对所述初始分类器的模型参数的迭代更新,最终得到所述分类器。4.根据权利要求3所述的方法,其特征在于,所述策略网络的训练过程包括:获得第二视频训练数据集,并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取,得到第二初始全局特征图,并将所述第二初始全局特征图输入到初始策略网络;所述初始策略网络对所述第二初始全局特征图进行随机裁剪,得到第二初始局部区域图像,并将所述第二初始局部区域图像输入到所述分类器,以得到分类结果;所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励,并通过最大化折
扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络。5.根据权利要求4所述的方法,其特征在于,所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励,并通过最大化折扣奖励的和,以实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络的步骤包括:通过以下奖励函数,获得所述分类结果对应的折扣奖励:式中:表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像;r
t
表示t时刻对应的第二初始局部区域图像的奖励值;p
ty
表示t时刻对应的第二初始局部区域图像的分类器置信度;表示t时刻对应的第二初始局部区域图像对应的误差期望;通过以下激励函数,最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新,最终得到所述策略网络:式中:r
t
表示t时刻对应的第二初始局部区域图像的奖励值;γ表示预设的奖励折扣因子;...

【专利技术属性】
技术研发人员:黄高王语霖陈昭熹蒋昊峻宋士吉
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1