【技术实现步骤摘要】
一种基于持续学习的视频分析方法及系统
[0001]本专利技术属于视频分析领域,更具体地,涉及一种基于持续学习的视频分析方法及系统
。
技术介绍
[0002]随着深度神经网络的发展和摄像机的大规模部署,视频分析已经成为许多应用中不可或缺的一部分,如交通监控
、
自动驾驶和智慧工业等
。
虽然先进的深度神经网络模型可以在各类视频分析任务中都提供准确的推理结果,但它们复杂的网络结构和庞大的网络参数使得这类模型难以在资源受限的终端设备上
(
如摄像机
)
实时运行
。
[0003]采用轻量级模型进行部署和推理能满足低时延的需求,但其简单的内在网络架构难以在各种场景下都维持较好的准确率,尤其是在具有挑战性的恶劣环境状况下,例如低光照
、
大雪和暴雨导致的低质量成像场景
。
[0004]知识蒸馏
(Knowledge Distillation)
是模型压缩的一种常用方法
。
不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度
。
这个大模型被称之为
Teacher model(
教师模型
)
,小模型则被称之为
Student model(
学生模型
)
,来自
Teacher
模型输出的监督信
【技术保护点】
【技术特征摘要】
1.
一种基于持续学习的视频分析方法,其特征在于,包括按照预设的时间窗口执行以下步骤:
(S1)
在摄像机端,将当前时间窗口内的视频帧序列输入学生模型进行推理,并提取视频帧序列中的关键帧,将关键帧及对应的推理结果发送至边缘服务器;
(S2)
在所述边缘服务器端,将所接收到的关键帧输入至
Oracle
模型进行推理,将推理结果作为真实标签;
(S3)
判断所述摄像机端的学生模型是否满足当前的准确率要求,若是,则将所接收的关键帧及相应的真实标签存入缓存,并转入步骤
(S5)
;否则,转入步骤
(S4)
;
(S4)
利用当前时间窗口所接收的关键帧和先前时间窗口所缓存的关键帧及相应的真实标签构建训练数据集后清空缓存,利用所述训练数据集通过知识蒸馏的方式对学生模型进行重新训练,重新训练结束后将新的学生模型参数发送回所述摄像机端,以对所述摄像机端的学生模型进行更新;
(S5)
当前时间窗口内的视频分析结束;其中,学生模型和所述
Oracle
模型均用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数
。2.
如权利要求1所述的基于持续学习的视频分析方法,其特征在于,重新训练的配置包括训练轮数
、
训练帧数以及用于知识蒸馏的教师模型;并且,所述步骤
(S4)
中,进行重新训练时所使用的配置通过如下方式确定:定义用于评估不同重新训练配置的质量的效用函数
U
k
=
A
k
‑
η
k
T
k
;在给定的约束条件下求解使得所述效用函数的取值最大的重新训练配置;其中,教师模型用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数;
k
表示当前重新训练的序号,
A
k
表示第
k
次重新训练触发后模型的准确率,
T
k
表示第
k
次重新训练时的总时间开销;
η
k
表示当前重新训练任务的紧急程度;所述约束条件包括:训练轮数和训练帧数均位于相应的取值上界和取值下界之间,训练的总时间开销不超过相应的取值上界,且用于知识蒸馏的教师模型属于预设的模型集合
。3.
如权利要求2所述的基于持续学习的视频分析方法,其特征在于,其中,0和
t0均为常量,分别表示每帧的数据大小和每帧的真实标签生成时间;表示当前时间窗口中传输的关键帧的数量;
D0表示记录学生模型的参数的权重文件大小;
B
up
和
B
down
分别表示传输期间可用的上行带宽和下行带宽;
e
k
、n
k
和
m
k
分别表示第
k
次重新训练的训练轮数
、
训练帧数以及用于知识蒸馏的教师模型,
t(m
k
)
表示利用所选的教师模型对一个视频帧训练一轮所需的时间
。4.
如权利要求2所述的基于持续学习的视频分析方法,其特征在于,当前时间窗口内,关键帧数占总帧数的比例越大,则当前重新训练任务的紧急程度
η
k
越大
。5.
如权利要求4所述的基于持续学习的视频分析方法,其特征在于,
其中,表示当前时间窗口内的关键帧集合,表示当前时间窗口内的视频帧集合,
len()
表示集合的长度
。6.
如权利要求2~5任一项所述的基于持续学习的视频分析方法,其特征在于,在给定的约束条件下求解使得所述效用函数的取值最大的重新训练配置,包括:
(S41)
在所述约束条件内初始化一个解,作为当前解
c
,并计算其对应的效用函数值
U
;
(S42)
在所述约束条件内随机扰动生成新解
c
′
,并计算其对应的效用函数值
U'
,若
U'&g...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。