一种轻量级多任务视频流实时推理方法及系统技术方案

技术编号:36542103 阅读:16 留言:0更新日期:2023-02-01 16:43
本发明专利技术提出一种轻量级多任务视频流实时推理方法及系统,采用推理效率更高的目标检测模型作为检测基准模型,在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务,通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余,通过级联知识蒸馏的端到端结构化迭代剪枝算法,进一步降低模型的计算量,有效提高了模型在边缘芯片硬件上的加速比,最终模型能够保证精度的同时在边缘端做到实时推理。实时推理。实时推理。

【技术实现步骤摘要】
一种轻量级多任务视频流实时推理方法及系统


[0001]本专利技术涉及计算机视觉和自动辅助驾驶
,尤其涉及一种轻量级多任务视频流实时推理方法。

技术介绍

[0002]随着人工智能技术发展和智能设备的普及,越来越多的设备需要在无法访问云平台的情况下使用人工智能技术,使得边缘人工智能变得越来越重要。尤其,在自动化机器人或配备计算机视觉算法的智能汽车的应用中,数据传输的滞后可能是灾难性的。自动驾驶汽车在检测道路的人员或障碍时不能受到延迟的影响,由于快速响应时间是如此重要,必须采用边缘人工智能系统,允许实时分析和分类图像,而不依赖云计算连接。而自动驾驶的实现主要依靠各种传感器对车身四周的环境进行感知,通过目标检测、分割,识别与跟踪等计算机视觉处理技术来评估安全性。
[0003]现阶段比较常用的处理道路物体检测任务、可行驶区域分割任务和多物体跟踪任务的方式主要是分别用三种神经网络模型处理。例如,单阶段目标检测模型和双阶段目标检测模型专门处理目标检测任务,UNet和PSPNet被用来处理语义分割任务。这种将多任务模型解耦,用多个神经网络模型分开处理的方法比较容易实现,但多模型必然导致重复提取图像数据特征和模型训练困难的问题,并且多个模型的总参数量和总计算量庞大,边缘端芯片受算力资源限制而运行速度慢,难以在精度和时延中间取得一个平衡。
[0004]因此,如何通过一个模型解决多个感知任务并且能做到精度和时延的平衡是亟需解决的问题。目前存在以下几种代表性的方法。
[0005]采用编码器

解码器结构,一个共享编码器和三个独立解码器用于分类任务、目标检测任务和语义分割任务。该算法在这些任务上都取得了较好的效果,并在KITTI可驾驶区域分割任务上取得了较好的效果。然而,在控制车辆方面,分类任务并不像多物体跟踪任务那么重要。
[0006]将交通目标检测、可行驶区域分割和车道检测结合在一起,并提出结合上下文张量来融合解码器之间的特征映射以实现信息共享。虽然在精度上有很强的表现,但它的时延较高,不能做到实时推理。
[0007]通过总结现有研究,发现以上几种多任务学习技术存在以下几点不足:(1)不能够很好的契合自动驾驶场景下对于车辆控制的需求。(2)不能够做到精度和时延之间的良好平衡,即不能够保证精度的同时做到实时推理。

技术实现思路

[0008]针对以上问题,采用推理效率更高的目标检测模型YOLOv5作为检测基准模型,在其基础上增加可行驶区域分割头网络和多物体跟踪头网络来分别完成可行驶区域分割任务和多物体跟踪任务,通过共享主干网络和特征金字塔网络的方式减少参数量和计算量的冗余,通过级联知识蒸馏的端到端结构化迭代剪枝算法,进一步降低模型的计算量,有效提
高了模型在边缘芯片硬件上的加速比,最终模型能够保证精度的同时在边缘端做到实时推理。本专利技术应用场景是自动辅助驾驶。本专利技术可以完成道路物体检测、可行驶区域分割和道路多物体跟踪三种辅助驾驶场景的感知任务。预测或规避属于辅助驾驶场景的规划控制相关的任务。需要基于我们的感知结果进行规划控制算法的设计。
[0009]具体来说,本专利技术提出了一种轻量级多任务视频流实时推理方法,其中包括:
[0010]步骤1、获取包含驾驶场景的视频数据集,该视频数据集中包括多个视频流,视频流中视频帧具有标签文件,该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签;
[0011]步骤2、获取具有主干网络和特征金字塔网络的原目标检测模型,在该特征金字塔网络的目标检测头网络增加两个分支网络,分别作为分割行驶区域头网络和物体跟踪头网络,得到多任务检测模型;
[0012]步骤3、以该视频数据集作为训练数据输入该多任务检测模型,并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果,和该标签文件构建损失函数,以训练该多任务检测模型,得到教师模型,对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理,得到学生模型;
[0013]步骤4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型,得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果;根据该推理结果,控制该车辆执行辅助驾驶相关的控制任务。
[0014]所述的轻量级多任务视频流实时推理方法,其中该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度;该行驶区域标签包括可行驶区域和不可行驶区域;该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。
[0015]所述的轻量级多任务视频流实时推理方法,其中该步骤3中训练该多任务检测模型具体包括:
[0016]多任务检测模型通过该主干网络对视频帧进行特征提取,得到不同尺度的特征图,通过该特征金字塔网络对不同尺度的特征图进行融合,通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary

cross

entropy和CIOU Loss,所述binary

cross

entropy具体为:
[0017]L
BCE
(y

i
,y
i
)=

w
i
[y
i
*logy

i
+(1

y
i
)*log(1

y

i
)][0018]所述CIOU Loss的公式具体为:
[0019][0020][0021][0022][0023]其中L
BCE
为binary

cross

entropy公式计算出的损失值,n为样本总数,a为预测输出,y为真实输出;L
CIoU
为CIOU Loss公式计算出的损失值,IoU为预测框A和标签框B的交并集,b
gt
为标签框中心点位置,b为预测框中心点位置,ρ2(b,b
gt
)为预测框A和标注框B中心点之间的欧几里得距离,c为预测框A和标注框B之间最小外接矩形测对角线的长度,α为权重,为预测框A和标注框B之间长宽比的距离;A为预测框,B为标注框;w
gt
为标注框的宽,h
gt
为标注框的长,w为预测框的宽,h为预测框的长;
[0024]当总损失值达到预设标准时,得到目标模型,所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签,其中检测目标标签作为该物体跟踪头网络的输入;该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数;其中,马氏距离关联度为:
[0025][0026]该余弦距离关联度量:
[0027][0028]综合马氏距离和余弦关联度量的损失函数如下:
[0029]c<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种轻量级多任务视频流实时推理方法,其特征在于,包括:步骤1、获取包含驾驶场景的视频数据集,该视频数据集中包括多个视频流,视频流中视频帧具有标签文件,该标签文件包括目标锚框类别标签、行驶区域标签以及物体跟踪标签;步骤2、获取具有主干网络和特征金字塔网络的原目标检测模型,在该特征金字塔网络的目标检测头网络增加两个分支网络,分别作为分割行驶区域头网络和物体跟踪头网络,得到多任务检测模型;步骤3、以该视频数据集作为训练数据输入该多任务检测模型,并基于该多任务检测模型输出的目标锚框类别、行驶区域和物体跟踪结果,和该标签文件构建损失函数,以训练该多任务检测模型,得到教师模型,对该教师模型进行级联知识蒸馏的端到端结构化迭代剪枝处理,得到学生模型;步骤4、将车辆行驶时采集的待识别的实时驾驶场景视频流输入该学生模型,得到包含目标检测结果、可行驶区域和目标跟踪结果的推理结果;根据该推理结果,控制该车辆执行辅助驾驶相关的控制任务。2.如权利要求1所述的轻量级多任务视频流实时推理方法,其特征在于,该目标锚框类别标签包括类别、锚框中心点坐标、锚框宽度以及锚框高度;该行驶区域标签包括可行驶区域和不可行驶区域;该物体跟踪标签包括视频流的帧位、锚框编号、锚框中心点坐标、锚框宽度、锚框高度、锚框包含物体的置信度。3.如权利要求1所述的轻量级多任务视频流实时推理方法,其特征在于,该步骤3中训练该多任务检测模型具体包括:多任务检测模型通过该主干网络对视频帧进行特征提取,得到不同尺度的特征图,通过该特征金字塔网络对不同尺度的特征图进行融合,通过不同任务的头网络进行解码得到输出并与标签计算损失函数binary

cross

entropy和CIOU Loss,所述binary

cross

entropy具体为:L
BCE
(y

i
,y
i
)=

w
i
[y
i
*logy

i
+(1

y
i
)*log(1

y

i
)]所述CIOU Loss的公式具体为:oss的公式具体为:oss的公式具体为:oss的公式具体为:其中L
BCE
为binary

cross

entropy公式计算出的损失值,n为样本总数,a为预测输出,y为真实输出;L
CIoU
为CIOU Loss公式计算出的损失值,IoU为预测框A和标签框B的交并集,b
gt
为标签框中心点位置,b为预测框中心点位置,ρ2(b,b
gt
)为预测框A和标注框B中心点之间的欧几里得距离,c为预测框A和标注框B之间最小外接矩形测对角线的长度,α为权重,为预测
框A和标注框B之间长宽比的距离;A为预测框,B为标注框;w
gt
为标注框的宽,h
gt
为标注框的长,w为预测框的宽,h为预测框的长;当总损失值达到预设标准时,得到目标模型,所述目标模型用于获取待识别视频帧并输出所述目标模型识别出的检测目标标签和可行驶区域分割标签,其中检测目标标签作为该物体跟踪头网络的输入;该物体跟踪头网络采用马氏距离与余弦距离度量跟踪目标与检测目标之间的损失函数;其中,马氏距离关联度为:该余弦距离关联度量:综合马氏距离和余弦关联度量的损失函数如下:c
i,j
=λd
(1)
(i,j)+(1

λ)d
(2)
(i,j)其中,d
j
表示检测锚框的位置,y
i
表示对目标的预测位置,S
i
表示d
j
与y
i
之间的协方差矩阵,r
j
表示检测目标的特征向量,表示跟踪目标的特征向量,λ表示马氏距离度量的权重;当损失c
i,j
达到预设标准时,得到该教师网络。4.如权利要求3所述的轻量级多任务视频流实时推理方法,其特征在于,该步骤3中剪枝处理包括:对于该多任务检测模型的训练过程,在损失函数L
BCE
(y'
i
,y
i
)中添加惩罚因子,对卷积层的权重和BN层的缩放系数进行约束,约束项λR(w)采用L1范数,对于卷积核和BN层缩放系数的约束公式如下:R(w)=|α|训练上述端到端该多任务检测模型至损失函数收敛后,对滤波器的绝对值进行求和,然后结合缩放系数和滤波器的绝对值之和做计算重要性函数,再根据预设剪枝率对重要性进行升序排序,通过预设剪枝率计算剪枝阈值,将低于阈值的滤波器剪枝;其中,滤波器绝对值求和公式、重要性判断函数和剪枝阈值计算公式如下:m
i
=α
i
*E
i
θ=sort
p
(M)将剪枝前的网络作为教师网络,将剪枝后的网络作为该学生网络。5.一种轻量级多任务视频流实时推理系统,其特征在于,包括:模块1、获取包含驾驶场景的视频数据集,该视频数...

【专利技术属性】
技术研发人员:戴凌飞刁博宇李超宫禄齐徐勇军
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1