基于参数空间噪声网络的深度强化学习目标跟踪方法技术

技术编号：25188116 阅读：13 留言：0更新日期：2020-08-07 21:15

本发明专利技术提供了一种基于参数空间噪声网络的深度强化学习目标跟踪方法。该方法包括：构建基于深度强化学习的目标跟踪模型，设计基于参数空间噪声线性层的网络损失函数，通过目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置；通过贪心算法选择最优的模型更新模式，根据最优的模型更新模式利用网络损失函数对当前的目标跟踪模型进行参数更新；基于当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪，重复执行上述处理过程，直至完成全部帧的目标跟踪，输出目标在视频序列中完整的位置信息。本发明专利技术的方法运算速度更快，具有更好的可迁移性和鲁棒性，在复杂场景下都能够达到更高效、鲁棒的目标跟踪结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于参数空间噪声网络的深度强化学习目标跟踪方法
本专利技术涉及计算机应用
，尤其涉及一种基于参数空间噪声网络的深度强化学习目标跟踪方法。
技术介绍
计算机视觉目标跟踪是指在视频序列中对人为标注或检测出的感兴趣目标进行位置和尺度的预测和标定，当全部视频序列结束后，给出目标完整的运动位置轨迹和尺度变化信息。计算机视觉目标跟踪通常属于中层语义问题，介于如图像分类这种浅层语义问题和如动作识别这种高层语义问题之间，很大程度上能够对最终图像视频语义分析的准确率和速度等产生重要的影响。近些年来，由于上述技术的蓬勃发展，计算机视觉目标跟踪越来越受到重视。然而，由于视频中跟踪环境的复杂性，在复杂环境下高鲁棒性和实时的目标跟踪技术一直是计算机视觉领域中研究的热点。在计算机视觉目标跟踪算法中，主流的两类计算机视觉目标跟踪算法为：深度卷积神经网络算法和深度强化学习算法。深度卷积神经网络算法的主要思想是利用深度卷积神经网络庞大的参数和强大的模型拟合能力，对跟踪目标进行拟合，用于准确区分跟踪目标与环境背景，从而达到鲁棒的目标跟踪效果。然而基于深度卷积神经网络算法的目标跟踪模型，由于计算量过大，通常情况下，无法满足目标跟踪的实时性要求，从而限制了模型的跟踪效率和使用范围。深度强化学习算法的主要思想是使用强化学习方式，基于深度学习模型，通过自学习方式，强化目标跟踪模型对于未知环境和目标的判别和表示能力，并通过赋予模型探索能力进一步提升模型的知识迁移能力。然而，此类基于强度强化学习的目标跟踪方法都存在一个问题——使用简单...

【技术保护点】
1.一种基于参数空间噪声网络的深度强化学习目标跟踪方法，其特征在于，构建基于深度强化学习的目标跟踪模型，设计基于参数空间噪声线性层的网络损失函数，所述方法具体包括：/n通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置；/n通过上置信界算法选择最优的模型更新模式，根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新；/n基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪，重复执行上述处理过程，直至完成全部帧的目标跟踪，输出目标在视频序列中完整的位置信息。/n

【技术特征摘要】
1.一种基于参数空间噪声网络的深度强化学习目标跟踪方法，其特征在于，构建基于深度强化学习的目标跟踪模型，设计基于参数空间噪声线性层的网络损失函数，所述方法具体包括：
通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置；
通过上置信界算法选择最优的模型更新模式，根据所述最优的模型更新模式利用所述基于参数空间噪声线性层的网络损失函数对当前的目标跟踪模型进行参数更新；
基于所述当前帧的目标位置通过更新后的目标跟踪模型进行下一帧的目标跟踪，重复执行上述处理过程，直至完成全部帧的目标跟踪，输出目标在视频序列中完整的位置信息。

2.根据权利要求1所述的方法，其特征在于，所述的构建构建基于深度强化学习的目标跟踪模型，包括：
根据训练数据构建基于深度强化学习的目标跟踪模型，该目标跟踪模型包括执行者模型、评判者模型和动作经验缓冲区；
所述执行者模型用于根据当前跟踪的目标情况进行目标跟踪和定位，给出目标的跟踪结果，其网络主体结构由四层卷积层和两层全连接层组成，每层卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，用于提取目标卷积特征提取；两层全连接层结构依次为1*1*512、1*1*512全连接层，用于输出跟踪的目标位置；
所述评判者模型用于根据当前的目标实际情况对执行者模型给出的目标的跟踪位置结果进行评判，判断是否符合真实目标位置，对目标的跟踪位置结果进行评判和反馈，其网络主体结构包含四个卷积层和两个全连接层，四个卷积层结构依次为112*112*3、51*51*96、11*11*256、3*3*512的卷积层，两个全连接层分别是1*1*512和1*1*512+4；
所述动作经验缓冲区用于存储和提取执行者模型在跟踪过程中采取的跟踪策略历史记录，用于网络参数更新。

3.根据权利要求2所述的方法，其特征在于，所述的设计基于参数空间噪声线性层的网络损失函数，包括：
设计参数空间噪声线性层，计算公式如下：

公式中，是输入特征，是权重矩阵，是偏置，代替原有网络权重矩阵ω，代替原有网络偏置b，是可学习参数，是噪声参数；y表示网络参数，用于网络参数更新；
设计基于参数空间噪声线性层的网络损失函数，用于模型在预训练阶段和在线跟踪阶段的模型参数更新，网络损失函数的计算公式如下：

公式中D是动作缓存库，θ-表示目标网络平稳更新后的参数(θ-←θ)，Q(x,a,ε|ζ)表示参数化的动作价值函数，γ表示权重系数，是网络损失函数，E表示期望，通过将网络损失值转化为期望，最终得到损失函数值。

4.根据权利要求3所述的方法，其特征在于，所述的通过所述目标跟踪模型对目标进行视频序列中的逐帧跟踪，输出跟踪得到的当前帧的目标位置，包括：
经过预训练得到的初始化的目标跟踪模型网络为原始网络，该原始网络包括初始化的执行者模型和评判者模型，执行者模型和评判者模型分别都有各自的在线网络和目标网络，通过执行者模型中的在线网络对当前跟踪目标以及环境进行在线的学习和评价，预测出目标的当前的位置和尺度，计算公式如下：
Q(st,at)＝r(st,at)+γQ(st+1,πθ(st-1))
公式中...

【专利技术属性】
技术研发人员：邢薇薇，杨宇翔，张顺利，于淇，魏翔，
申请(专利权)人：北京交通大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人