基于参数空间噪声网络的深度强化学习目标跟踪方法技术

技术编号:25188116 阅读:13 留言:0更新日期:2020-08-07 21:15
本发明专利技术提供了一种基于参数空间噪声网络的深度强化学习目标跟踪方法。该方法包括:构建基于深度强化学习的目标跟踪模型,设计基于参数空间噪声线性层的网络损失函数,通过目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置;通过贪心算法选择最优的模型更新模式,根据最优的模型更新模式利用网络损失函数对当前的目标跟踪模型进行参数更新;基于当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪,重复执行上述处理过程,直至完成全部帧的目标跟踪,输出目标在视频序列中完整的位置信息。本发明专利技术的方法运算速度更快,具有更好的可迁移性和鲁棒性,在复杂场景下都能够达到更高效、鲁棒的目标跟踪结果。

【技术实现步骤摘要】
基于参数空间噪声网络的深度强化学习目标跟踪方法
本专利技术涉及计算机应用
,尤其涉及一种基于参数空间噪声网络的深度强化学习目标跟踪方法。
技术介绍
计算机视觉目标跟踪是指在视频序列中对人为标注或检测出的感兴趣目标进行位置和尺度的预测和标定,当全部视频序列结束后,给出目标完整的运动位置轨迹和尺度变化信息。计算机视觉目标跟踪通常属于中层语义问题,介于如图像分类这种浅层语义问题和如动作识别这种高层语义问题之间,很大程度上能够对最终图像视频语义分析的准确率和速度等产生重要的影响。近些年来,由于上述技术的蓬勃发展,计算机视觉目标跟踪越来越受到重视。然而,由于视频中跟踪环境的复杂性,在复杂环境下高鲁棒性和实时的目标跟踪技术一直是计算机视觉领域中研究的热点。在计算机视觉目标跟踪算法中,主流的两类计算机视觉目标跟踪算法为:深度卷积神经网络算法和深度强化学习算法。深度卷积神经网络算法的主要思想是利用深度卷积神经网络庞大的参数和强大的模型拟合能力,对跟踪目标进行拟合,用于准确区分跟踪目标与环境背景,从而达到鲁棒的目标跟踪效果。然而基于深度卷积神经网络算法的目标跟踪模型,由于计算量过大,通常情况下,无法满足目标跟踪的实时性要求,从而限制了模型的跟踪效率和使用范围。深度强化学习算法的主要思想是使用强化学习方式,基于深度学习模型,通过自学习方式,强化目标跟踪模型对于未知环境和目标的判别和表示能力,并通过赋予模型探索能力进一步提升模型的知识迁移能力。然而,此类基于强度强化学习的目标跟踪方法都存在一个问题——使用简单的动作空间噪声扩展模型探索能力。这会导致模型在复杂环境下的学习过程中产生剧烈波动,导致目标丢失。此外,现有的目标跟踪算法,对于当前模型更新策略普遍采用定时更新和单一模型更新,虽然可以快速简洁地完成模型对于当前目标变化的拟合更新,然而往往会造成由于模型更新模式单一、无法自适应调整更新策略和时间而导致模型对于目标判别能力的下降。在实际应用中,在不同复杂度的环境下,模型更新的时间和更新模式都存在差别,如果使用固定的模式适用于全部跟踪问题,必然会导致目标跟踪模型在不同环境下的迁移能力大大下降,降低了模型的鲁棒性。因此,需要提供一种实时、准确、鲁棒的基于参数空间噪声网络的深度强化学习目标跟踪方法。
技术实现思路
本专利技术的实施例提供了一种基于参数空间噪声网络的深度强化学习目标跟踪方法,以克服现有技术的问题。为了实现上述目的,本专利技术采取了如下技术方案。一种基于参数空间噪声网络的深度强化学习目标跟踪方法,构建基于深度强化学习的目标跟踪模型,设计基于参数空间噪声线性层的网络损失函数,所述方法具体包括:通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置;通过上置信界算法选择最优的模型更新模式,根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新;基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪,重复执行上述处理过程,直至完成全部帧的目标跟踪,输出目标在视频序列中完整的位置信息。优选地,所述的构建构建基于深度强化学习的目标跟踪模型,包括:根据训练数据构建基于深度强化学习的目标跟踪模型,该目标跟踪模型包括执行者模型、评判者模型和动作经验缓冲区;所述执行者模型用于根据当前跟踪的目标情况进行目标跟踪和定位,给出目标的跟踪结果,其网络主体结构由四层卷积层和两层全连接层组成,每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,用于提取目标卷积特征提取;两层全连接层结构依次为1*1*512、1*1*512全连接层,用于输出跟踪的目标位置;所述评判者模型用于根据当前的目标实际情况对执行者模型给出的目标的跟踪位置结果进行评判,判断是否符合真实目标位置,对目标的跟踪位置结果进行评判和反馈,其网络主体结构包含四个卷积层和两个全连接层,四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,两个全连接层分别是1*1*512和1*1*512+4;所述动作经验缓冲区用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录,用于网络参数更新。优选地,所述的设计基于参数空间噪声线性层的网络损失函数,包括:设计参数空间噪声线性层,计算公式如下:公式中,是输入特征,是权重矩阵,是偏置,代替原有网络权重矩阵ω,代替原有网络偏置b,是可学习参数,是噪声参数;y表示网络参数,用于网络参数更新;设计基于参数空间噪声线性层的网络损失函数,用于模型在预训练阶段和在线跟踪阶段的模型参数更新,网络损失函数的计算公式如下:公式中D是动作缓存库,θ-表示目标网络平稳更新后的参数(θ-←θ),Q(x,a,ε|ζ)表示参数化的动作价值函数,γ表示权重系数,是网络损失函数,E表示期望,通过将网络损失值转化为期望,最终得到损失函数值。优选地,所述的通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置,包括:经过预训练得到的初始化的目标跟踪模型网络为原始网络,该原始网络包括初始化的执行者模型和评判者模型,执行者模型和评判者模型分别都有各自的在线网络和目标网络,通过执行者模型中的在线网络对当前跟踪目标以及环境进行在线的学习和评价,预测出目标的当前的位置和尺度,计算公式如下:Q(st,at)=r(st,at)+γQ(st+1,πθ(st-1))公式中,πθ是执行者模型,r是价值函数,s是当前环境,a是当前选取的动作,通过训练使得评判者模型能够获得最大的Q(st,at)值,Q(st,at)表示动作评价函数用于中损失函数的计算。优选地,所述的通过上置信界算法选择最优的模型更新模式,包括:设定四种模型更新模式包含:不更新、在线模型更新、在线模型和目标模型更新以及重定位,从目标跟踪模型的更新历史记录中获取四种模型更新模式的历史信息,结合当前模型的评价函数值以及四种模型更新模式的历史信息,分别计算四种模型更新模式分别对应的上置信界算法UCB值,计算公式如下:公式中,va表示模型更新模式,c表示权重系数,Nt表示在目标跟踪模型的更新历史记录中各个模型更新模式发生的次数;Qa表示动作a的模型预测评价值,lnt表示对t时间长度段取对数,用于反应时间影响因素;选择UCB值最大的模型更新模式为最优的模型更新模式,也作为当前目标跟踪模型的更新模式。优选地,所述的根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新,包括:根据所述网络损失函数设计基于噪声的网络损失函数根据线性层计算方式设计相应的梯度公式,公式如下:使用蒙特卡洛优化方式,将梯度信息函数进一步优化为:在每一帧的目标跟踪过程中,由本文档来自技高网
...

【技术保护点】
1.一种基于参数空间噪声网络的深度强化学习目标跟踪方法,其特征在于,构建基于深度强化学习的目标跟踪模型,设计基于参数空间噪声线性层的网络损失函数,所述方法具体包括:/n通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置;/n通过上置信界算法选择最优的模型更新模式,根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新;/n基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪,重复执行上述处理过程,直至完成全部帧的目标跟踪,输出目标在视频序列中完整的位置信息。/n

【技术特征摘要】
1.一种基于参数空间噪声网络的深度强化学习目标跟踪方法,其特征在于,构建基于深度强化学习的目标跟踪模型,设计基于参数空间噪声线性层的网络损失函数,所述方法具体包括:
通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置;
通过上置信界算法选择最优的模型更新模式,根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新;
基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪,重复执行上述处理过程,直至完成全部帧的目标跟踪,输出目标在视频序列中完整的位置信息。


2.根据权利要求1所述的方法,其特征在于,所述的构建构建基于深度强化学习的目标跟踪模型,包括:
根据训练数据构建基于深度强化学习的目标跟踪模型,该目标跟踪模型包括执行者模型、评判者模型和动作经验缓冲区;
所述执行者模型用于根据当前跟踪的目标情况进行目标跟踪和定位,给出目标的跟踪结果,其网络主体结构由四层卷积层和两层全连接层组成,每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,用于提取目标卷积特征提取;两层全连接层结构依次为1*1*512、1*1*512全连接层,用于输出跟踪的目标位置;
所述评判者模型用于根据当前的目标实际情况对执行者模型给出的目标的跟踪位置结果进行评判,判断是否符合真实目标位置,对目标的跟踪位置结果进行评判和反馈,其网络主体结构包含四个卷积层和两个全连接层,四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层,两个全连接层分别是1*1*512和1*1*512+4;
所述动作经验缓冲区用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录,用于网络参数更新。


3.根据权利要求2所述的方法,其特征在于,所述的设计基于参数空间噪声线性层的网络损失函数,包括:
设计参数空间噪声线性层,计算公式如下:



公式中,是输入特征,是权重矩阵,是偏置,代替原有网络权重矩阵ω,代替原有网络偏置b,是可学习参数,是噪声参数;y表示网络参数,用于网络参数更新;
设计基于参数空间噪声线性层的网络损失函数,用于模型在预训练阶段和在线跟踪阶段的模型参数更新,网络损失函数的计算公式如下:



公式中D是动作缓存库,θ-表示目标网络平稳更新后的参数(θ-←θ),Q(x,a,ε|ζ)表示参数化的动作价值函数,γ表示权重系数,是网络损失函数,E表示期望,通过将网络损失值转化为期望,最终得到损失函数值。


4.根据权利要求3所述的方法,其特征在于,所述的通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪,输出跟踪得到的当前帧的目标位置,包括:
经过预训练得到的初始化的目标跟踪模型网络为原始网络,该原始网络包括初始化的执行者模型和评判者模型,执行者模型和评判者模型分别都有各自的在线网络和目标网络,通过执行者模型中的在线网络对当前跟踪目标以及环境进行在线的学习和评价,预测出目标的当前的位置和尺度,计算公式如下:
Q(st,at)=r(st,at)+γQ(st+1,πθ(st-1))
公式中...

【专利技术属性】
技术研发人员:邢薇薇杨宇翔张顺利于淇魏翔
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1