深度逆强化学习的无人机航拍视频中的目标检测方法技术

技术编号:22295882 阅读:39 留言:0更新日期:2019-10-15 04:59
本发明专利技术涉及运动目标检测检测技术,特别是深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:步骤1、建立深度逆强化学习模型;步骤2、模型策略迭代与算法实现;步骤3、模型关键参数选取与优化;步骤4、输出运动小目标检测结果。它提供一种能解决复杂任务、奖励回报延迟的深度逆强化学习的无人机航拍视频中的目标跟踪方法。

Target Detection in Unmanned Aerial Vehicle Video Based on Deep Inverse Reinforcement Learning

【技术实现步骤摘要】
深度逆强化学习的无人机航拍视频中的目标检测方法
本专利技术涉及运动目标检测检测技术,特别是深度逆强化学习的无人机航拍视频中的目标检测方法。
技术介绍
在无人机航拍视频目标检测领域,在执行任务过程中的机载相机通常处于高距离的拍摄角度,其航拍视频中的感兴趣目标通常存在目标较小、目标特征退化、运动缓慢等特点,运动目标的检测和提取难度大。但航拍视频相邻序列间对应的运动目标集合存在很强的关联性,包括目标中心位置、尺寸信息、目标像素特征等。Sutton提出的时间差分算法进行目标检测,对背景进行全局运动补偿过程中存在略微的偏差,图像中出现的亮斑点或者明显的边缘等一些异常点,很大的概率被检测为运动目标,该算法忽略了视频序列之间的相关性,容易出现运动目标的误检测。Watkins和rummery提出Q-learning算法和Saras算法,利用了航拍视频中的运动目标集合链符合马尔科夫过程的特性,将航拍视频中运动目标检测问题建模为马尔科夫决策过程模型,对输入状态维度可控的模型下采用表格法解决动态决策问题。马尔科夫决策过程模型中奖励回报函数未知情况下,现阶段大多数方法通过在专家轨迹辅助下来拟合得到奖励回报函数,拟合不准确会导致对小目标检测误差大。深度学习技术对目标检测具有优良的性能。但基于卷积神经网络的划分预测网格的YOLO方法,以及在先验框基础上增加多尺度特征信息的SSD检测方法,在像素特征不明显、目标较小、连接紧密的目标场景下存在很大的局限性。Sutton等人相关策略收敛理论的提出,使得强化学习应用策略梯度更新的方法得以实现。随后相继提出DQN、A3C、改进DQN等算法在性能上取得了重大突破。但传统逆强化学习通过人为设置基底的线性拟合方式,在高维动作和状态空间局限性较大,容易造成决策模型对策略评价错误和运动目标的漏检、误检。针对航拍视频中运动小目标的分辨率低、运动缓慢和容易受到光照和相机的抖动噪声的特点,逆强化学习(InverseReinforcementLearning,IRL)解决了复杂任务、奖励回报延迟等一些挑战性问题,通过从专家示例中学习潜在的奖励回报函数来提高决策策略的方法。最大边际规划(MMP)通过寻找特征参数来完成到奖励回报函数的线性映射,2012年提出的结构化分类(SCIRL)方法通过将动作空间用类标签表示,通过分类思想的值函数来寻找最优策略,2016年提出的神经逆向强化学习(NIRL)通过非线性网络的策略表示方法进行策略优化,拟合高维度策略表示空间在性能上取得了优势,大大提高了在候选目标集合中正确决策概率。
技术实现思路
本专利技术的目的是提供一种能解决复杂任务、奖励回报延迟的深度逆强化学习的无人机航拍视频中的目标检测方法。本专利技术的目的是这样实现的,深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:步骤1、建立深度逆强化学习模型;步骤2、模型策略迭代与算法实现;步骤3、模型关键参数选取与优化;步骤4、输出运动小目标检测结果。所述的步骤1包括:步骤1.1;随机选取训练过程中已获取目标的视频片段作为模型输入;步骤1.2,策略全连接网络层。所述的步骤1.1包括:步骤1.1.1)随机选取训练过程中已获取目标的视频片段作为模型输入,在n帧关联检测前提下,定义视频片段最小的帧数为n+1,其中视频片段最大的帧数不超过2n,如公式(1)所示;n+1≤FramCount≤2n(1)其中已获取目标中的视频片段通过公式(1)规则排列贮存;步骤1.1.2)将航拍视频序列图像中对应的运动目标集合看作是动作行为集合,通过探索数据轨迹集合表示为公式(2):Tk=(t,Otk)(2)包含n个运动目标的探索数据轨迹运动目标集合Otk以及集合中包含第k个运动目标otk,k的中心位置、尺寸、置信度概率值;可以表示为公式(3);其中集合中包含m个正确目标,n-m个误检目标;步骤1.1.3)对于航拍视频专家轨迹集合表示为公式(4):Tkl=(t,Otl)(4)同理,专家数据轨迹运动目标集合可以表示公式(5):Otl={otl,1,otl,2,otl,3,...,otl,m}(5)其中包含m个正确目标,将专家数据轨迹运动目标集合作为训练样本优化模型。所述的步骤1.1.3)中将专家数据轨迹运动目标集合作为训练样本优化模型具体包括如下步骤:步骤1.1.31,特征卷积网络层通过提取专家数据轨迹运动目标集合差分灰度累加图像中包含的特征信息,计算得到运动目标候选区域的数据类型;将初始图像归一化为438*438大小的数据类型作为模型输入,模型通过4层卷积特征层与2层全连接层组成,将前3层卷积层通过最大池化层对数据进行整合;步骤1.1.32,在特征CNN层的训练方法上,采用xavier方法初始化网络层权重值,通过计算得到的运动目标信息差量得到损失函数对模型进行调优;步骤1.1.33,采用线性整流激活函数,将模型前向预测得到的运动目标信息与专家轨迹目标集合求差值得到损失量,包括目标中心位置坐标损失量与目标大小尺寸损失量,以及对误检目标的惩罚量。损失函数如式(6)所示,其中cij取值范围为(0,1),表示置信度概率值;其中系数设置为:βx,y=0.5,βw,h=0.5,βk=2.0,βl1=0.1,βl2=2.0步骤1.1.34,在计算得到损失误差量之后,通过反向传播将其误差量作为神经网络模型更新迭代的参照量,误差量分摊给各层单元节点并对权重进行修正;步骤1.1.35,通过加入动量(Momentum)项来增大权重修正的趋势,使得模型收敛加快,如公式(7)所示:在特征CNN前向预测及训练阶段的反向更新参数过程中,将前两层卷积层特征图谱可视化表示。所述的步骤1.2,策略全连接网络层具体包括:步骤1.2.1,将特征CNN层得到的运动目标信息数据作为策略全连接网络层模型输入的一部分,采用多帧检测结果组合的方式得到16*16*8(n+1)维度的数据类型作为输入;步骤1.2.2,通过模型第1层的最大池化层将多帧关联的高维度数据降低其空间复杂度,再通过2层全连接结构策略层筛选得到最优的运动目标检测结果;步骤1.2.3,通过神经网络非线性拟合出奖励回报函数,使其学习得到专家轨迹中的最优策略,将C维的特征向量fc与权重θc的线性组合,其中s表征多帧运动目标状态,a表征策略在当前状态下做的选择行为动作,通过公式(8)表示为:步骤1.2.4,将每次通过探索得到的策略定义为探索策略;对于一个新的探索策略πi生成的探索轨迹Tk,探索策略期望值可以表示为公式(9);其中γ为折扣系数,γ越大表征对历史奖励回报函数的权重越大。q′可以通过数据轨迹集合中包含的正确目标与误检目标得到,通过引入q′将探索策略期望值进行归一化,q′可以通过公式(10)定义:步骤1.2.5,专家期望同理可以表示为默认专家期望是局部最优量,专家策略期望量与探索策略期望量的差值可以定义为策略期望损失量Lt(πi),Lt(πi)≥0,迭代更新策略πi使得存在误差ε范围内满足下式,其中期望函数最大,代表当前的策略最优,代表得到最佳的运动目标检测效果更佳,可以通过公式(11)表示:步骤1.2.6,当前探索策略πi通过n-step时间差分回退方法得到的Q值,当n=0时,表示策略Q值只与当前状态的奖励回报值本文档来自技高网
...

【技术保护点】
1.深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:步骤1、建立深度逆强化学习模型;步骤2、模型策略迭代与算法实现;步骤3、模型关键参数选取与优化;步骤4、输出运动小目标检测结果。

【技术特征摘要】
1.深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:至少包括如下步骤:步骤1、建立深度逆强化学习模型;步骤2、模型策略迭代与算法实现;步骤3、模型关键参数选取与优化;步骤4、输出运动小目标检测结果。2.根据权利要求1所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1包括:步骤1.1;随机选取训练过程中已获取目标的视频片段作为模型输入;步骤1.2,策略全连接网络层。3.根据权利要求2所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1.1包括:步骤1.1.1)随机选取训练过程中已获取目标的视频片段作为模型输入,在n帧关联检测前提下,定义视频片段最小的帧数为n+1,其中视频片段最大的帧数不超过2n,如公式(1)所示;n+1≤FramCount≤2n(1)其中已获取目标中的视频片段通过公式(1)规则排列贮存;步骤1.1.2)将航拍视频序列图像中对应的运动目标集合看作是动作行为集合,通过探索数据轨迹集合表示为公式(2):Tk=(t,Otk)(2)包含n个运动目标的探索数据轨迹运动目标集合Otk以及集合中包含第k个运动目标otk,k的中心位置、尺寸、置信度概率值;可以表示为公式(3);其中集合中包含m个正确目标,n-m个误检目标;步骤1.1.3)对于航拍视频专家轨迹集合表示为公式(4):Tkl=(t,Otl)(4)同理,专家数据轨迹运动目标集合可以表示公式(5):Otl={otl,1,otl,2,otl,3,...,otl,m}(5)其中包含m个正确目标,将专家数据轨迹运动目标集合作为训练样本优化模型。4.根据权利要求3所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1.1.3)中将专家数据轨迹运动目标集合作为训练样本优化模型具体包括如下步骤:步骤1.1.31,特征卷积网络层通过提取专家数据轨迹运动目标集合差分灰度累加图像中包含的特征信息,计算得到运动目标候选区域的数据类型;将初始图像归一化为438*438大小的数据类型作为模型输入,模型通过4层卷积特征层与2层全连接层组成,将前3层卷积层通过最大池化层对数据进行整合;步骤1.1.32,在特征CNN层的训练方法上,采用xavier方法初始化网络层权重值,通过计算得到的运动目标信息差量得到损失函数对模型进行调优;步骤1.1.33,采用线性整流激活函数,将模型前向预测得到的运动目标信息与专家轨迹目标集合求差值得到损失量,包括目标中心位置坐标损失量与目标大小尺寸损失量,以及对误检目标的惩罚量。损失函数如式(6)所示,其中cij取值范围为(0,1),表示置信度概率值;其中系数设置为:βx,y=0.5,βw,h=0.5,βk=2.0,βl1=0.1,βl2=2.0步骤1.1.34,在计算得到损失误差量之后,通过反向传播将其误差量作为神经网络模型更新迭代的参照量,误差量分摊给各层单元节点并对权重进行修正;步骤1.1.35,通过加入动量(Momentum)项来增大权重修正的趋势,使得模型收敛加快,如公式(7)所示:在特征CNN前向预测及训练阶段的反向更新参数过程中,将前两层卷积层特征图谱可视化表示。5.根据权利要求2所述的深度逆强化学习的无人机航拍视频中的目标检测方法,其特征是:所述的步骤1.2,策略全连接网络层具体包括:步骤1.2.1,将特征CNN层得到的运动目标信息数据作为策略全连接网络层模型输入的一部分,采用多帧检测结果组合的方式得到16*16*8(n+...

【专利技术属性】
技术研发人员:刘友江周劼秋勇涛孙伟闫达帅杜川
申请(专利权)人:中国工程物理研究院电子工程研究所西安电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1