The invention discloses an active tracking method, which belongs to the field of machine learning. The method includes: obtaining the frame of the I frame image taken by the camera, input the frame of the I frame image into the depth network, the depth network including the feature extraction network and the policy function, and extract the image features of the image frame through the feature extraction network; through the strategy, the image frame is extracted by the feature extraction network. The function calculates the output probability of the N output action according to the image features, n > 2; the maximum output probability is selected from the output probability of the N output action; the output action corresponding to the maximum output probability of the camera is controlled, so that the I = i+1. After training the parameters in the depth network through a three-dimensional virtual environment, the camera uses the depth network to perform control action on the camera according to the image frame of the camera. Because only a deep network is needed to train, it does not need to adjust the parameters of the linkage of the motion target tracking module and the camera control module respectively, so as to reduce the workload of parameter adjustment.
【技术实现步骤摘要】
主动跟踪方法、装置及系统
本专利技术实施例涉及机器学习领域,特别涉及一种主动跟踪方法、装置及系统。
技术介绍
在诸如机器人、无人机等机器领域,通过计算机视觉实现对运动目标的检测和跟踪是一个重要研究领域。在这些机器上通常设置有单个摄像头,通过单个摄像头拍摄到的图像帧进行分析,然后实现对运动目标的连续跟踪。相关技术中提供了一种主动跟踪技术,在该主动跟踪技术中分为运动目标跟踪模块和摄像头控制模块两个模块,运动目标跟踪模块负责将对运动目标的跟踪结果输出给摄像头控制模块,摄像头控制模块将运动目标跟踪模块输出的跟踪结果映射为摄像头的动作并控制摄像头运动,以保证运动目标在摄像头拍摄的图像帧中,尽可能地处于图像帧的正中间。由于摄像头控制模块与运动目标跟踪模块为两个独立运行的模块,在对其中某一个模块的工作参数进行调整的时候,需要同时联动调整另一个模块的工作参数以达到主动跟踪的最好效果,但是因为参数的调节空间过大,实际实现时很难同时将两组工作参数调整至合理状态。
技术实现思路
为了解决摄像头控制模块与运动目标跟踪模块为两个独立运行的模块,在联动调整两个模块的参数时,很难同时将两组工作参数 ...
【技术保护点】
1.一种主动跟踪方法,其特征在于,所述方法包括:获取摄像头拍摄的第i帧图像帧,所述第i帧图像帧中包括运动目标,其中i为自然数;将所述第i帧图像帧输入深度网络,所述深度网络包括特征提取网络和策略函数;通过所述特征提取网络提取所述第i帧图像帧的图像特征;通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率,所述输出动作是用于控制所述摄像头的动作,其中n为自然数,且n≥2;从所述n个输出动作的输出概率中选择最大输出概率;控制所述摄像头执行所述最大输出概率对应的所述输出动作,以对所述运动目标进行跟踪。
【技术特征摘要】
1.一种主动跟踪方法,其特征在于,所述方法包括:获取摄像头拍摄的第i帧图像帧,所述第i帧图像帧中包括运动目标,其中i为自然数;将所述第i帧图像帧输入深度网络,所述深度网络包括特征提取网络和策略函数;通过所述特征提取网络提取所述第i帧图像帧的图像特征;通过所述策略函数根据所述图像特征计算n个输出动作各自的输出概率,所述输出动作是用于控制所述摄像头的动作,其中n为自然数,且n≥2;从所述n个输出动作的输出概率中选择最大输出概率;控制所述摄像头执行所述最大输出概率对应的所述输出动作,以对所述运动目标进行跟踪。2.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括级联的卷积神经网络和长短时记忆(LSTM)神经网络;所述通过所述特征提取网络提取所述第i帧图像帧的图像特征,包括:通过所述卷积神经网络提取所述第i帧图像帧的第一特征矩阵;通过所述LSTM神经网络根据所述第i帧图像帧的第一特征矩阵和所述第i帧图像帧之前的其它图像帧的图像特征,提取得到所述第i帧图像帧的第二特征矩阵,将所述第二特征矩阵作为所述第i帧图像帧的图像特征。3.根据权利要求1所述的方法,其特征在于,所述深度网络是根据跟踪器在三维虚拟环境中对运动目标进行跟踪所产生的样本图像帧进行训练得到的。4.根据权利要求3所述的方法,其特征在于,所述策略函数包括至少一个第一参数,所述第一参数是通过第一误差反向传播公式训练得到的;所述第一误差反向传播公式如下:θ=θ′+α(Rt-V(St))▽θlogπ(at|St)+β▽θH(π(·|St))其中,θ’为修正前的第一参数,α为学习速率,Rt-V(St)为所述累积误差,Rt为所述连续T步累积的T个奖励值之和,V(St)为所述连续T步累积的T个所述奖励值的估值之和,logπ(at|St)为所述预测输出概率,H为熵正则项,β为正则化因子,其中,所述T为预设阈值,每次向所述深度网络输入一个图像帧计为一步,所述预测输出概率是将所述样本图像帧输入所述策略函数后计算得到的n个输出动作各自的预测输出概率,所述奖励值用于表示所述跟踪器的实时跟踪位置和预设的目标期望位置的吻合程度,所述奖励值的估值用于表示估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度。5.根据权利要求4所述的方法,其特征在于,所述估值函数包括至少一个第二参数,所述第二参数是通过第二误差反向传播公式训练得到的;所述第二误差反向传播公式如下:其中,θ’为所述修正前的第二参数,Rt-V(St)为所述累积误差,Rt为所述连续T步累积的T个所述奖励值之和,V(St)为所述连续T步累积的T个所述奖励值的估值之和,α为学习速率。6.根据权利要求4所述的方法,其特征在于,所述奖励值是通过如下公式计算得到的:以所述跟踪器所在位置为原点,所述跟踪器在所述三维虚拟环境中的正前方为y轴正方向,所述跟踪器在所述三维虚拟环境中的水平向右为x轴的正方向,建立直角坐标系,其中,A为所述奖励值达到最大时的取值,r为所述样本图像帧对应的奖励值,d为预设的偏移量,c为预设的归一化参数,λ为预设的权重因子,a为所述运动目标与所述跟踪器的连线,与所述y轴正方向所形成的角度。7.一种深度网络训练方法,其特征在于,用于对权利要求1或2所使用的所述深度网络进行训练,所述训练方法包括:构建三维虚拟环境,所述三维虚拟环境包括跟踪器和所述运动目标,所述跟踪器用于在所述三维虚拟环境中跟踪所述运动目标,且以第一视角采集跟踪所述运动目标时的图像帧,所述运动目标用于按照预定路径在所述三维虚拟环境中进行移动;获取所述跟踪器采集到的样本图像帧;根据所述运动目标在所述三维虚拟环境中相对于所述跟踪器的实时跟踪位置和预设的目标期望位置计算出所述样本图像帧对应的奖励值,所述奖励值用于表示所述实时跟踪位置与所述目标期望位置的吻合程度;将所述样本图像帧输入所述深度网络的所述特征提取网络得到所述图像特征,将所述图像特征输入预设的估值函数计算得到所述样本图像帧对应的所述奖励值的估值,所述奖励值的估值用于表示所述估值函数预测出的预测跟踪位置与所述目标期望位置的吻合程度;根据所述奖励值和所述奖励值的估值之间的误差,利用误差反向传播算法对所述深度网络和所述估值函数进行训练。8.根据权利要求7所述的方法,其特征在于,所述根据所述奖励值和所述奖励值的估值之间的误差,利用误差反向...
【专利技术属性】
技术研发人员:罗文寒,孙鹏,刘威,
申请(专利权)人:深圳市腾讯计算机系统有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。