一种基于持续学习的视频分析方法及系统技术方案

技术编号:39491005 阅读:9 留言:0更新日期:2023-11-24 11:13
本发明专利技术公开了一种基于持续学习的视频分析方法及系统,属于视频分析领域,包括:在摄像机端将当前时间窗口内的视频帧序列输入学生模型进行推理,并提取关键帧后连同对应的推理结果发送至边缘服务器;在边缘服务器端,将关键帧输入至

【技术实现步骤摘要】
一种基于持续学习的视频分析方法及系统


[0001]本专利技术属于视频分析领域,更具体地,涉及一种基于持续学习的视频分析方法及系统


技术介绍

[0002]随着深度神经网络的发展和摄像机的大规模部署,视频分析已经成为许多应用中不可或缺的一部分,如交通监控

自动驾驶和智慧工业等

虽然先进的深度神经网络模型可以在各类视频分析任务中都提供准确的推理结果,但它们复杂的网络结构和庞大的网络参数使得这类模型难以在资源受限的终端设备上
(
如摄像机
)
实时运行

[0003]采用轻量级模型进行部署和推理能满足低时延的需求,但其简单的内在网络架构难以在各种场景下都维持较好的准确率,尤其是在具有挑战性的恶劣环境状况下,例如低光照

大雪和暴雨导致的低质量成像场景

[0004]知识蒸馏
(Knowledge Distillation)
是模型压缩的一种常用方法

不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度

这个大模型被称之为
Teacher model(
教师模型
)
,小模型则被称之为
Student model(
学生模型
)
,来自
Teacher
模型输出的监督信息称之为
Knowledge(
知识
)
,而
Student
学习迁移来自
Teacher
的监督信息的过程称之为
Distillation(
蒸馏
)。
这种方法基于新的数据样本,不断从先进的深度神经网络中学习知识,并将其传递给轻量级模型进行持续地学习

重新训练和模型更新

利用知识蒸馏对轻量级模型进行持续学习以在恶劣的视频成像环境中提升终端设备上轻量级模型的准确率表现,已被证明是一种有效的策略

[0005]然而,重新训练是一项计算密集型的任务,难以在资源受限的终端设备上高效完成

为了解决这个难题,边缘服务器可以被有效利用来协助执行重新训练任务

如何充分利用终端设备和边缘服务器的计算资源,在当前带宽约束下选择最佳的重新训练配置以实现准确率和时间开销之间的权衡,是建立该视频分析系统所需解决的难题


技术实现思路

[0006]针对现有技术的缺陷和改进需求,本专利技术提供了一种基于持续学习的视频分析方法及系统,其目的在于,在保证终端设备上视频分析任务实时性的情况下,提升在恶劣环境状况下执行视频分析任务的准确率

[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于持续学习的视频分析方法,包括按照预设的时间窗口执行以下步骤:
[0008](S1)
在摄像机端,将当前时间窗口内的视频帧序列输入学生模型进行推理,并提取视频帧序列中的关键帧,将关键帧及对应的推理结果发送至边缘服务器;
[0009](S2)
在边缘服务器端,将所接收到的关键帧输入至
Oracle
模型进行推理,将推理结果作为真实标签;
[0010](S3)
判断摄像机端的学生模型是否满足当前的准确率要求,若是,则将所接收的关键帧及相应的真实标签存入缓存,并转入步骤
(S5)
;否则,转入步骤
(S4)

[0011](S4)
利用当前时间窗口所接收的关键帧和先前时间窗口所缓存的关键帧及相应的真实标签构建训练数据集后清空所述缓存,利用训练数据集通过知识蒸馏的方式进行重新训练,重新训练结束后将新的学生模型参数发送回摄像机端,以对摄像机端的学生模型进行更新;
[0012](S5)
当前时间窗口内的视频分析结束;
[0013]其中,学生模型和
Oracle
模型均用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数

[0014]进一步地,重新训练配置包括训练轮数

训练帧数以及用于知识蒸馏的教师模型;
[0015]并且,步骤
(S4)
中,进行重新训练时所使用的配置通过如下方式确定:
[0016]定义用于评估不同重新训练配置的质量的效用函数
U
k

A
k

η
k
T
k

[0017]在给定的约束条件下求解使得效用函数的取值最大的重新训练配置;
[0018]其中,教师模型用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数;
k
表示当前重新训练的序号,
A
k
表示第
k
次重新训练触发后模型的准确率,
T
k
表示第
k
次重新训练时的总时间开销;
η
k
表示当前重新训练任务的紧急程度;约束条件包括:训练轮数

训练帧数均位于相应的取值上界和取值下界之间,训练的总时间开销不超过相应的取值上界,且用于知识蒸馏的教师模型属于预设的模型集合

[0019]进一步地,
[0020][0021]其中,
d0和
t0均为常量,分别表示每帧的数据大小和每帧的真实标签生成时间;表示当前时间窗口中传输的关键帧的数量;
D0表示记录学生模型的参数的权重文件大小;
B
up

B
down
分别表示传输期间可用的上行带宽和下行带宽;
e
k
、n
k

m
k
分别表示第
k
次重新训练的训练轮数

训练帧数以及用于知识蒸馏的教师模型,
t(m
k
)
表示利用所选的教师模型对一个视频帧训练一轮所需的时间

[0022]进一步地,当前时间窗口内,关键帧数占总帧数的比例越大,则当前重新训练任务的紧急程度
η
k
越大

[0023]进一步地,
[0024][0025]其中,表示当前时间窗口内的关键帧集合,表示当前时间窗口内的视频帧集合,
len()
表示集合的长度

[0026]进一步地,在给定的约束条件下求解使得效用函数的取值最大的重新训练配置,包括:
[0027](S41)
在约束条件内初始化一个解,作为当前解
...

【技术保护点】

【技术特征摘要】
1.
一种基于持续学习的视频分析方法,其特征在于,包括按照预设的时间窗口执行以下步骤:
(S1)
在摄像机端,将当前时间窗口内的视频帧序列输入学生模型进行推理,并提取视频帧序列中的关键帧,将关键帧及对应的推理结果发送至边缘服务器;
(S2)
在所述边缘服务器端,将所接收到的关键帧输入至
Oracle
模型进行推理,将推理结果作为真实标签;
(S3)
判断所述摄像机端的学生模型是否满足当前的准确率要求,若是,则将所接收的关键帧及相应的真实标签存入缓存,并转入步骤
(S5)
;否则,转入步骤
(S4)

(S4)
利用当前时间窗口所接收的关键帧和先前时间窗口所缓存的关键帧及相应的真实标签构建训练数据集后清空缓存,利用所述训练数据集通过知识蒸馏的方式对学生模型进行重新训练,重新训练结束后将新的学生模型参数发送回所述摄像机端,以对所述摄像机端的学生模型进行更新;
(S5)
当前时间窗口内的视频分析结束;其中,学生模型和所述
Oracle
模型均用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数
。2.
如权利要求1所述的基于持续学习的视频分析方法,其特征在于,重新训练的配置包括训练轮数

训练帧数以及用于知识蒸馏的教师模型;并且,所述步骤
(S4)
中,进行重新训练时所使用的配置通过如下方式确定:定义用于评估不同重新训练配置的质量的效用函数
U
k

A
k

η
k
T
k
;在给定的约束条件下求解使得所述效用函数的取值最大的重新训练配置;其中,教师模型用于对视频帧序列进行推理,得到各视频帧的目标检测结果及相应的置信度分数;
k
表示当前重新训练的序号,
A
k
表示第
k
次重新训练触发后模型的准确率,
T
k
表示第
k
次重新训练时的总时间开销;
η
k
表示当前重新训练任务的紧急程度;所述约束条件包括:训练轮数和训练帧数均位于相应的取值上界和取值下界之间,训练的总时间开销不超过相应的取值上界,且用于知识蒸馏的教师模型属于预设的模型集合
。3.
如权利要求2所述的基于持续学习的视频分析方法,其特征在于,其中,0和
t0均为常量,分别表示每帧的数据大小和每帧的真实标签生成时间;表示当前时间窗口中传输的关键帧的数量;
D0表示记录学生模型的参数的权重文件大小;
B
up

B
down
分别表示传输期间可用的上行带宽和下行带宽;
e
k
、n
k

m
k
分别表示第
k
次重新训练的训练轮数

训练帧数以及用于知识蒸馏的教师模型,
t(m
k
)
表示利用所选的教师模型对一个视频帧训练一轮所需的时间
。4.
如权利要求2所述的基于持续学习的视频分析方法,其特征在于,当前时间窗口内,关键帧数占总帧数的比例越大,则当前重新训练任务的紧急程度
η
k
越大
。5.
如权利要求4所述的基于持续学习的视频分析方法,其特征在于,
其中,表示当前时间窗口内的关键帧集合,表示当前时间窗口内的视频帧集合,
len()
表示集合的长度
。6.
如权利要求2~5任一项所述的基于持续学习的视频分析方法,其特征在于,在给定的约束条件下求解使得所述效用函数的取值最大的重新训练配置,包括:
(S41)
在所述约束条件内初始化一个解,作为当前解
c
,并计算其对应的效用函数值
U

(S42)
在所述约束条件内随机扰动生成新解
c

,并计算其对应的效用函数值
U'
,若
U'&g...

【专利技术属性】
技术研发人员:杨鹏孔雨新
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1