一种基于深度强化学习的监控视频目标检测任务调度方法技术

技术编号:34995577 阅读:13 留言:0更新日期:2022-09-21 14:43
本发明专利技术涉及一种基于深度强化学习的监控视频目标检测任务调度方法,属于边缘计算技术领域。首先抽取监控视频关键帧压缩待处理视频规模,使用残差U

【技术实现步骤摘要】
一种基于深度强化学习的监控视频目标检测任务调度方法


[0001]本专利技术涉及一种基于深度强化学习的监控视频目标检测任务调度方法,属于边缘计算


技术介绍

[0002]近年来,随着智慧城市建设的不断深入,人工智能等技术在监控视频系统中不断集成,越来越多的监控设备被部署到城市中的各个角落。监控视频行业正以惊人的速度持续扩张,监控视频流量也随之不断增长。随着深度强化学习、边缘计算等技术在监控视频行业的深度融合,根据用户需求提出端到端的监控视频解决方案,将进一步促进未来监控视频行业的发展。
[0003]边缘计算技术,是指从数据产生源到云数据中心路径之间的任意计算资源和网络资源,提供了一种就近处理数据的新范式。传统监控视频系统前端监控摄像机的内置计算能力较低,而现有的智能监控视频系统的智能处理能力不足。基于传统云服务架构的网络监控视频技术降低了用户的成本,集中式的计算和存储模式也提高了监控视频数据的安全性与可靠性。针对日益增长的非结构化监控视频数据,将监控视频数据上传云中心服务器进行检测对网络性能要求较高,实时性能无法得到保证;视频数据处理分析任务集中在云服务器执行,增加了云计算中心的计算负载,同时存储和管理大量的监控视频数据,导致关键目标信息的漏检率较高且检测效率低,增加了存储设备能量消耗等问题。边缘计算技术在视频业务的应用和提升用户观看体验质量方面具有无可比拟的优势。因此,基于边缘计算的端到端监控视频目标检测技术有着广泛的应用前景。
[0004]监控视频图像目标检测方法,是将视频图像中关键目标信息与用户不感兴趣的部分进行辨别,判断目标是否存在、确定目标位置、识别目标种类的一种计算机视觉任务。目前,针对目标检测与识别的研究,主要分为基于传统机器学习算法与基于深度学习算法的视频图像处理方法。随着人工智能技术的迅猛发展,计算机视觉的主流研究与应用方向是基于深度学习方法的目标检测与识别算法,主要分为以下三类:
[0005](1)基于目标区域的算法,如R

CNN、Fast R

CNN算法等;
[0006](2)基于回归方法的算法,如YOLO、SSD算法等;
[0007](3)基于搜索的算法,如AttentionNet等。
[0008]上述方法主要是从视频中里检测是否存在图像目标和识别目标位置与种类两个过程,该任务的挑战之处在于目标区域的检测与候选框的识别。在监控视频系统中,应用目标检测与识别算法能够有效提升监控视频处理分析效率。
[0009]深度学习是以神经网络为基础发展的一种表示学习,是人工智能领域一个崭新的研究领域。强化学习主要针对序列决策问题,抽象建模为马尔科夫过程,即代理必须在环境中使用不同动作决策策略,以取得最大的累积奖励。不同于使用样本数据集训练机器学习模型的监督学习,强化学习通过一系列正确的决策逐渐强化模型,找到长期累积奖励最大化的动作策略。在每个时间片,代理通过深度学习观察与环境交互得到的状态动作,使用强
化学习优化动作策略是累积奖励最大化,不断循环上述过程,最终得到优化目标的最优策略。作为一个端到端的感知与决策系统,深度强化学习既具有深度学习的特征抽取能力,又兼有强化学习的决策能力,二者优势互补,为复杂系统的优化提供了新的解决思路。
[0010]边缘计算技术赋能的新型监控视频系统具有高度的复杂性。然而,现有的使用边缘计算架构的监控视频目标检测方法都存在某些方面的不足。例如,中国专利技术专利申请“CN111901573A”提出了一种基于边缘计算的细粒度实时监管系统,包含智能视频监控装置、边缘计算模块、边缘计算节点和云计算中心。智能视频监控装置负责采集监控视频,边缘计算模块负责对监控视频数据流预处理,边缘节点负责将将边缘模块数据上传云计算中心,云计算中心对监控视频数据进行最终的分析。但是,大量的监控视频数据上传云计算中心对该系统是一个巨大的挑战。此外,对监控视频进行实时目标检测分析,辅助用户快速找到关键目标,可以更有效地提升用户的检测效率。
[0011]目前,基于深度强化学习的监控视频目标检测任务调度方法,尚未见到有相关文献或专利公开。

技术实现思路

[0012]本专利技术的目的是针对当前复杂网络环境下进行监控视频实时目标检测任务调度的技术问题,创新性地提出一种云边协作架构下基于深度强化学习的实时监控视频目标检测任务调度方法,旨在提高监控视频目标检测的实时性、降低系统时延。
[0013]本专利技术的创新点在于:首先抽取监控视频关键帧(I帧)压缩待处理视频规模,使用残差U

Net神经网络对监控视频的关键帧进行显著性目标检测,识别有价值的目标信息。同时,采用云边协作架构,根据云服务器和边缘设备的可用资源,使用深度强化学习异步优势行动者评论家A3C算法优化调度残差U

Net网络,将残差U

Net网络目标检测任务根据当前系统可用资源,自适应地卸载在云服务器或边缘设备执行,从而减小系统时延,提高实时性能。
[0014]本专利技术的目的是通过下述技术方案实现的。
[0015]一种基于深度强化学习的监控视频目标检测任务调度方法,包括以下步骤:
[0016]步骤1:分析识别出监控视频中的关键目标信息。
[0017]首先,根据监控视频的时空特征,分析并提取出监控视频中的关键帧。
[0018]然后,使用残差U

Net网络对监控视频的关键帧进行显著性目标检测,识别出关键目标信息。
[0019]步骤2:采用基于边缘计算的云边协作架构,根据云服务器和边缘设备的可用资源,使用深度强化学习异步优势行动者评论家A3C算法来优化调度残差U

Net网络目标检测任务。
[0020]步骤3:根据步骤2学习到的异步优势行动者评论家A3C模型,确定下一个目标检测残差U

Net任务的执行位置,即,是将目标检测任务卸载在云服务器或还是在边缘设备。
[0021]然后,继续利用深度强化学习执行调度策略,决策下一个残差U

Net目标检测任务的卸载执行位置。
[0022]有益效果
[0023]本专利技术,对比现有技术,具有以下优点:
[0024]1.本专利技术提出的基于深度强化学习算法是一种离线训练在线验证方法。通过分析监控视频抽取关键帧,压缩了监控视频数据传输规模;使用残差U

Net网络对抽取的监控视频关键帧进行显著性目标检测,提高了视频处理分析效率;使用深度强化学习异步优势行动者评论家A3C算法优化残差U

Net任务调度决策模型,根据当前可用资源,基于云边协作架构,能够自适应地卸载在云服务器或边缘设备执行,降低了系统延迟,提高了实时性能。
[0025]2.本专利技术既考虑了监控视频目标检测的精确度,也考虑了端到端的监控视频系统时延。在云边协作机制下监控视频系统牺牲一定的系统时延,可以保证实时目标检测任务较好的精本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的监控视频目标检测任务调度方法,其特征在于,包括以下步骤:步骤1:分析识别出监控视频中的关键目标信息;首先,根据监控视频的时空特征,分析并提取出监控视频中的关键帧;然后,使用残差U

Net网络对监控视频的关键帧进行显著性目标检测,识别出关键目标信息;步骤2:采用基于边缘计算的云边协作架构,根据云服务器和边缘设备的可用资源,使用深度强化学习异步优势行动者评论家A3C算法来优化调度残差U

Net网络目标检测任务;步骤3:根据步骤2学习到的异步优势行动者评论家A3C模型,确定下一个目标检测残差U

Net任务的执行位置,即,是将目标检测任务卸载在云服务器还是在边缘设备;然后,继续利用深度强化学习执行调度策略,决策下一个残差U

Net目标检测任务的卸载执行位置。2.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法,其特征在于,步骤1中,使用H.264标准编码监控视频,抽取监控视频的关键帧;使用FFmpeg工具抽取监控视频关键帧,用作监控视频目标检测任务的输入。3.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法,其特征在于,步骤1中,使用的残差U

Net模型为卷积网络结构,通过对输入图片的每个像素进行分类,能够快速定位与区分边界;该网络结构是对称的,包括两个部分:左侧部分称为收缩路径,该路径由卷积层构成;右侧部分是扩展路径,该路径由转置的卷积层构成;残差U

Net模型主体采用全卷积神经网络,使用卷积层代替全连接层,由局部特征提取的输入卷积层、对称编码器和解码器结构,以及通过求和融合局部和不同尺度特征的残差连接组成。4.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法,其特征在于,步骤2中,监控视频的残差U

Net网络目标检测任务以离散时间的方式到达监控视频系统中;在每个时间片内,任务调度程序选择若干个等待任务调度到云服务器或者边缘设备卸载执行;设每个任务的资源需求在到达时是已知的,每个残差U

Net任务α的资源需求由向量R
α
=(r
α,1
,r
α,2
,

,r
α,n
)给出,r
α,n
表示第n个到达的残差U

Net目标检测任务的资源需求;设采用云边协作的监控视频系统不具备抢占式调度功能;任务从开始执行到完成时,系统必须连续分配向量R
α
中所需的所有资源,否则该目标检测任务不能执行;对于每个残差U

Net任务α,计算时延比例S
a
由计算得出,表示任务的计算时间,即分配目标检测任务所需的全部资源后,从任务开始计算到执行完成的时间;T
α
是任务的持续时间,即从任务到达系统,到任务执行完成的持续时间;A3C算法包括状态空间、动作空间、奖励函数,其中:状态空间:根据基于云边协作机制的监控视频系统的状态,当前云服务器与边缘设备之间的可用资源,以及等待调度执行的残差U

Net任务所需求的资源;在每一轮的任务决策之后,代理能够观察到当前状态S
t
,S
t
=(B
t
,C
c,t
,C
e,t
,O
e,t
,O
c,t
,L
t
),B
t
表示边缘节点与云服
务器之间的链路带宽,C
c,t
和C
e,t
分别表示云服务器与边缘节点的计算能力,O
c,t
和O
e,t
分别代表云服务器与...

【专利技术属性】
技术研发人员:杨松侯彪李凡
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1