一种基于自适应推理的视频识别方法和装置制造方法及图纸

技术编号：32824088 阅读：17 留言：0更新日期：2022-03-26 20:23

本申请提供了一种基于自适应推理的视频识别方法和装置，属于视频分析技术领域。本申请实施例使用全局特征提取网络提取视频流中的每帧图像的粗粒度全局特征图后，使用策略网络将包含目标物体的初始局部区域图像裁剪出来，再通过局部特征提取网络提取细粒度局部特征图，并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作，得到融合特征向量，最后利用分类器根据融合特征向量，确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例能够有效识别出每帧图像中信息量最丰富的目标局部图像，并输出对应的预测标签，实现对每帧图像的自适应在线推理，并通过压缩每帧图像的空间冗余信息，有效降低推理时延和计算量。效降低推理时延和计算量。效降低推理时延和计算量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应推理的视频识别方法和装置

[0001]本申请涉及视频分析
，特别是涉及一种基于自适应推理的视频识别方法和装置。

技术介绍

[0002]目前，得益于深度神经网络技术的飞速发展，精确的视频识别算法被广泛应用于生产生活的各个领域。然而，这类算法专注于使用更大更深更复杂的网络来提升视频识别算法的精度，而忽略了实际应用中计算资源的瓶颈。在视频识别广泛的应用场景中，如安防、动态捕捉等，基于大型视频识别神经网络的算法往往需要部署在计算资源有限的边缘设备上。而这些边缘设备在运行大型神经网络的算法时，往往存在虽然精度高，但是计算资源消耗大、模型推理速度慢的问题。

技术实现思路

[0003]本申请提供一种基于自适应推理的视频识别方法和装置，以解决视频识别任务中计算资源消耗大、模型推理速度慢的问题。
[0004]为了解决上述问题，本申请采用了以下的技术方案：
[0005]第一方面，本申请实施例提供了一种基于自适应推理的视频识别方法，应用于神经网络，所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器，所述方法包括：
[0006]以视频流中的每一帧图像为当前帧图像；通过所述全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到所述策略网络；
[0007]所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到所述局部特征提取网络；
[0008]所述局部...

【技术保护点】

【技术特征摘要】
1.一种基于自适应推理的视频识别方法，其特征在于，应用于神经网络，所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器，所述方法包括：以视频流中的每一帧图像为当前帧图像；通过所述全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到所述策略网络；所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到所述局部特征提取网络；所述局部特征提取网络对所述初始局部区域图像进行特征提取，得到细粒度局部特征图，对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作，分别得到全局特征向量和局部特征向量，并将所述全局特征向量和所述局部特征向量输入到级联网络；所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作，得到融合特征向量，并将所述融合特征向量输入到所述分类器；所述分类器根据所述融合特征向量，确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。2.根据权利要求1所述的方法，其特征在于，所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像的步骤，包括：所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量，确定所述当前帧图像的初始局部区域图像的坐标信息，其中，所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息；根据所述当前帧图像的初始局部区域图像的坐标信息，对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像。3.根据权利要求1所述的方法，其特征在于，所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括：获得第一视频训练数据集，并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取，得到第一初始全局特征图，并通过最小化交叉熵误差，以实现对所述第一初始特征提取网络的模型参数的迭代更新，最终得到所述全局特征提取网络；通过二维均匀分布对所述第一初始全局特征图进行随机采样，以得到第一初始局部区域图像，并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练，得到初始局部特征图，并通过最小化交叉熵误差，以实现对所述第二初始特征提取网络的模型参数的迭代更新，最终得到所述局部特征提取网络；将所述初始局部特征图输入到初始分类器进行预训练，并通过最小化交叉熵误差，以实现对所述初始分类器的模型参数的迭代更新，最终得到所述分类器。4.根据权利要求3所述的方法，其特征在于，所述策略网络的训练过程包括：获得第二视频训练数据集，并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取，得到第二初始全局特征图，并将所述第二初始全局特征图输入到初始策略网络；所述初始策略网络对所述第二初始全局特征图进行随机裁剪，得到第二初始局部区域图像，并将所述第二初始局部区域图像输入到所述分类器，以得到分类结果；所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励，并通过最大化折
扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络。5.根据权利要求4所述的方法，其特征在于，所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励，并通过最大化折扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络的步骤包括：通过以下奖励函数，获得所述分类结果对应的折扣奖励：式中：表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像；r
t
表示t时刻对应的第二初始局部区域图像的奖励值；p
ty
表示t时刻对应的第二初始局部区域图像的分类器置信度；表示t时刻对应的第二初始局部区域图像对应的误差期望；通过以下激励函数，最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络：式中：r
t
表示t时刻对应的第二初始局部区域图像的奖励值；γ表示预设的奖励折扣因子；...

【专利技术属性】
技术研发人员：黄高，王语霖，陈昭熹，蒋昊峻，宋士吉，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人