The invention provides a method for automatically adjusting the target position of a camera in an image acquisition application, which belongs to the technical field of pattern recognition and the technical field of camera active positioning. The method includes a camera positioning and the depth of the neural network training effect evaluation; multiple target test, positioning in the experimental process, training a fitting to strengthen the depth of the neural network learning value function, through the depth of the neural network to determine the camera \turn\, \turn\, \left\ and \right\, \zoom\ and \shrink\ and \change\ 7 kinds of operation quality; the decision network camera image information according to the current access, make decisions on camera operation. The method proposed in the invention, based on the depth reinforcement learning algorithm, improves the quality of the collected image. It is a method of camera active learning, autonomous target localization, which can adapt to different target positioning tasks, independent learning positioning method, and little human involvement.
【技术实现步骤摘要】
本专利技术涉及一种基于深度强化学习的摄像机主动目标定位方法,属于模式识别
和摄像机主动定位
技术介绍
近年来,摄像机已经越来越多的应用于生产生活中,如:安保监控,车辆检测,目标跟踪,人脸识别。现阶段的应用场景中,摄像机提供图像信息,使用人工监控或目标检测算法等方式实现相应应用。在整个摄像机图像采集过程中,摄像机固定不动或者按照指定的路线循环调整角度,不能根据实际场景,主动调整视野,对目标进行主动定位。现有的技术文献中,专利技术专利“摄像机红外主动跟踪装置及采用该装置的摄像机控制系统”,公开号为102376156A,通过接收红外发射装置发出的红外信号并根据该信号对目标位置进行分析判定的目标信号拾取器,调整摄像机位置。该方法的缺点是,只能应用于对红外信号能够判别的目标定位场景,不能根据不同的应用做出相应调整。另外,该方法需要添加额外的红外装置,不是直接根据图像信息做出调整。深度神经网络包含多层神经网络,后一层神经网络的输入是前一层神经网络的输出,一般情况下每一层神经网络都会有采用一种非线性的激励函数,也称激活函数,常用的激励函数有,ReLU函数:Re ...
【技术保护点】
一种基于深度强化学习的摄像机主动目标定位方法,其特征在于,该方法包括以下步骤:(1)训练一个评价摄像机定位效果的深度神经网络,将该网络命名为评价网络NR由多层神经网络组成;(2)进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,将该网络命名为决策网络NQ,通过决策网络NQ判断摄像机7种操作的优劣;(3)完成决策网络NQ训练后,采用决策网络NQ根据摄像机当前获取的图像信息,对摄像机操作做出决策。
【技术特征摘要】
1.一种基于深度强化学习的摄像机主动目标定位方法,其特征在于,该方法包括以下步骤:(1)训练一个评价摄像机定位效果的深度神经网络,将该网络命名为评价网络NR由多层神经网络组成;(2)进行多次目标定位试验,在定位实验过程中,训练一个拟合强化学习值函数的深度神经网络,将该网络命名为决策网络NQ,通过决策网络NQ判断摄像机7种操作的优劣;(3)完成决策网络NQ训练后,采用决策网络NQ根据摄像机当前获取的图像信息,对摄像机操作做出决策。2.如权利要求1所述方法,其特征在于,所述步骤(1)具体步骤如下:(1-1)设置评价网络NR:评价网络NR的网络结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,由于RGB图像为3个维度,所以输入层的维度为Hnet×Wnet×3;LRC层为卷积神经网络,激励函数为ReLU函数;LRP层为全连接层,前LRP-1层的激励函数也为ReLU函数,最后一层全连接层激励函数为Sigmoid函数,且设置维度为1,作为评价网络NR输出,评价网络NR输出定义为评价值;将评价网络NR中的所有参数统一表示为θR,评价网络NR逐层的运算过程表示一个函数映射,命名为评价函数其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到1维实数空间的评价值;(1-2)采集训练评价网络NR的数据集:(1-3)从数据集D中随机挑选MR,b组样本,记为批量样本以及标签S中与其对应的批量标签(1-4)根据步骤(1-1)的评价函数计算评价网络NR对批量样本Dbatch的评价值其中i=1,2,…,MR,b;(1-5)定义评价网络NR的优化目标为其中为第i个样本di输入网络后输出的评价值,将最小化评价值和标签之间的欧式距离作为优化目标训练网络,计算优化目标对评价网络参数θR的梯度为(1-6)采用随机梯度下降法,更新评价网络参数其中αR为评价网络的学习率;(1-7)重复上述步骤(1-3)~(1-6),不断更新评价网络参数θR,直到评价网络收敛,完成评价网络训练,评价网络收敛的依据是连续CR次优化目标J小于阈值ηR。3.如权利要求2所述方法,其特征在于,所述步骤(2)具体步骤如下:(2-1)设置决策网络NQ结构依次为:输入层为RGB图像,图像高为Hnet,宽为Wnet,与评价网络相同;LQC层为卷积神经网络,激励函数为ReLU函数;LQP层为全连接层,前LQP-1层的激励函数也为ReLU函数,最后一层全连接层无激励函数,设置维度为7,作为网络输出,将决策网络NQ中的全部参数统一表示为θQ,决策网络NQ逐层的运算过程表示为一个函数映射,命名为决策函数其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;7维向量输出对应摄像机7种操作的决策值,7种操作分别为:“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”;(2-2)设置一个深度神经网络,其网络结构与决策网络NQ结构完全相同,命名为靶标网络NT,网络的参数表示为θT,令θT=θQ,对应的靶标函数为其中·表示网络的输入图像,实际计算中会输入不同的图像;R表示实数,函数意义为将维度为Hnet×Wnet×3的实数空间图像映射到7维实数空间的向量输出;(2-3)设置一个存储Mbuffer组数据的缓存区B,设置缓存区B中当前存储样本编号Msample=0;(2-4)设置一个训练计数器c1=0;(2-5)设置一个连续成功定位计数器c2=0;(2-5)设置当前时间t=0;(2-6)初始化摄像机到常规位置,视野最大化,开始一次定位试验;(2-7)摄像机采集当前时刻的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t时刻的RGB图像It,将图像It输入评价网络NR,得到图像It的评价值(2-8)从“上转”、“下转”、“左转”、“右转”、“放大”、“缩小”和“不变”七种操作中根据以下法则挑选一种操作,记为at:(2-9)摄像机执行步骤(2-8)选择的操作at,获得新的图像,采用双线性插值法,把图像大小变换为Hnet*Wnet,得到t+1时刻的RGB图像It+1;将图像It+1输入评价网络NR,得到图像It+1的评价值(2-10)计算当前操作的回报值,记为rt:(2-10-1)如果执行操作at为“不变”,根据图像It+1的评价值st+1计算回报值,若评价值st+1>β,则回报值rt=Ps;若评价值st+1≤β,则当前操作的回报值rt=-Ps;其中Ps为正数;(2-10-2)如果执行操作at为其余任意一种操作,则根据图像It和It+1的评价差值计算回报值,评价差值Δs=st+1-st,如果Δs>0,则回报值rt=Pg,否则,回报值rt=-Pg;其中Pg都为正数;(2‐11)计算当前操作的终止标志,记为ut:如果执行操作at为“不变”,则ut=0;否则,ut=1;(2-12)将图像It,执行操作at,回报值rt,终止标志ut,图像It+1组成一组五元组(It,at,r...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。