【技术实现步骤摘要】
一种基于多智能体协同深度强化学习的多目标追踪方法
[0001]本专利技术属于目标追踪
,特别是涉及一种基于多智能体协同深度强化学习的多目标追踪方法。
技术介绍
[0002]多智能体系统是指利用多个普通智能体通过相互协作来完成全局或整体目标的分布式智能系统,其中的单个智能体可以对应完成局部的目标。由于多智能体系统具有分布式特征,能够处理更为复杂的任务,所以多智能体系统一直是人工智能的重点研究领域。而多智能体系统的关键就是协作技术,其在多智能体系统运作中起到核心作用。因此,如何通过互相协作使得多智能体又快又好地完成任务,仍是研究人员一直关注的问题。
[0003]多目标追踪问题中的个体与智能体有很大的相似之处,因此很容易将人工智能中的方法与模型迁移到多目标追踪的问题上。多目标追踪是对视频中的多个被关注对象进行维持固定身份标识的追踪。简单来说,多目标追踪的根本任务就是在给定的视频序列中,给多个感兴趣的目标识别定位,同时关联不同帧的相同目标,生成其运动轨迹。其在应用于安防、工业、交通和军事领域等众多更复杂的计算机视觉系统 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,包括以下步骤:利用三维坐标法对环境进行建模,得到环境模型;基于环境模型获取输入数据;所述输入数据包括环境反馈信息和追踪目标的当前帧位置信息;将所述输入数据输入到追踪模型中,确定所述追踪目标的追踪轨迹;所述追踪模型是根据孪生神经网络构建的;所述追踪模型用于利用追踪智能体在所述环境模型中动态追踪所述追踪目标的位置信息,将所述环境反馈信息和所述追踪目标的当前帧位置信息以4:6的比例作为输入,并以下一帧位置信息作为输出,确定所述追踪目标的追踪轨迹。2.根据权利要求1所述的基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,所述环境模型为以第一个所述追踪目标的位置为原点建立单位长度为1m的三维坐标系,所述追踪目标和所述追踪智能体在所述环境模型中的位置,均用六个三维坐标表示,且所述追踪目标和所述追踪智能体均能够进行上、下、左、右、缩小、扩大、静止7个动作;在所述环境模型中,用欧氏距离来衡量所述追踪目标与所述追踪智能体之间的距离。3.根据权利要求1所述的基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,所述环境反馈信息包括:探查智能体集合、追踪智能体结合、追踪目标集合、静态障碍集合。4.根据权利要求1所述的基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,所述追踪模型构建过程为:使用孪生神经网络作为多智能体中的评价网络和目标网络,DQN建立经验回放机制,通过经验回放对强化学习过程进行训练,动作设置为上、下、左、右、缩小、扩大、静止,训练完成后即得到所述追踪模型。5.根据权利要求4所述的基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,所述追踪模型的训练过程为:将目标与追踪智能体距离的负值作为环境反馈的奖励;二者距离越远,惩罚越大;距离越近,惩罚越小;特殊的,当追踪智能体到达指定目标位置时,即逃跑者上下左右四个方格,奖励为0,即不惩罚;定义经验回放池的容量为C,当超过其容量时,删除没有使用过或被使用过次数少的经验帧。6.根据权利要求1所述的基于多智能体协同深度强化学习的多目标追踪方法,其特征在于,所述追踪模型构建过程还包括:确定本地模型参数;所述确定本地模型参数具体为:基于孪生神经网络模型,设置所述追踪智能体在环境中的状态空间、行为空间以及环境对所述追踪智能体的行为奖励函数;基于DQN算法,为每个所述追踪智能体初始化对应的估计网络和评价网络,并且分配每个所述追踪智能体的初始追踪目标;所述追踪智能体根据当前自身状态决策下一步采取的行为,并与环境进行交互,得到下一个自身状态,并基于人工势场法的引力法动态调整追踪目标;将所述决策...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。