本申请实施例中提供了一种基于深度强化学习的多源卫星调度方法和装置,所述方法包括:获取当前多源卫星状态;将当前多源卫星状态输入预先训练的多源卫星调度模型,得到每个卫星的放弃执行任务概率和执行任务概率;基于放弃执行任务概率和执行任务概率,结合随机函数判断每个卫星是否执行当前任务,得到多源卫星调度结果。本申请实施例中,由于多源卫星调度模型是基于等量的好的调度经历和不好的调度经历组成训练样本,并基于深度强化学习训练得到的,保证多源卫星调度模型每次训练都能够从好的调度经历学习好的动作,能够从不好的调度经历避免不好的动作,使得训练过程更加合理,因而缩短训练时间,提升了多源卫星调度模型的收益。型的收益。型的收益。
【技术实现步骤摘要】
一种基于深度强化学习的多源卫星调度方法和装置
[0001]本申请涉及成像卫星调度领域,特别涉及一种基于深度强化学习的多源卫星调度方法和装置。
技术介绍
[0002]成像卫星是指可以在太空中拍摄图像的卫星,成像卫星拍摄到的图像对于军事和民用都具有重大意义。为了得到实时性高的图像,通常调度多源卫星(多个卫星组成的卫星群)进行拍摄,由此引入了多源卫星的调度问题,即当传输一个任务给卫星群时,需要决定这个任务是否被执行,若需要被执行,则分配给哪些卫星执行。
[0003]相关技术中,利用深度强化学习来进行多源卫星资源调度,该方法虽然可以满足实时性调度的需求,但现有的深度强化学习方法的训练速度较慢,并且训练得到的模型收益不高。因此,如何缩短模型的训练时间、提升模型的收益,是本领域技术人员亟待解决的技术问题。
技术实现思路
[0004]鉴于上述问题,本申请实施例提供了一种基于深度强化学习的多源卫星调度方法和装置,以便克服上述问题或者至少部分地解决上述问题。
[0005]本申请实施例的第一方面,公开了一种基于深度强化学习的多源卫星调度方法,所述方法包括:
[0006]获取当前多源卫星状态,所述当前多源卫星状态是在上一次调度时多源卫星状态的基础上,根据上一次调度结果和当前任务的任务信息更新得到的;
[0007]将所述当前多源卫星状态输入预先训练的多源卫星调度模型,得到每个卫星的放弃执行任务概率和执行任务概率;
[0008]基于所述放弃执行任务概率和所述执行任务概率,结合随机函数判断每个卫星是否执行所述当前任务,得到多源卫星调度结果;
[0009]其中,所述多源卫星调度模型是基于等量的好的调度经历和不好的调度经历组成训练样本,并基于深度强化学习训练得到的,所述好的调度经历是指任务收益为正的调度经历,所述不好的调度经历是指任务收益为负的调度经历。
[0010]可选地,所述多源卫星调度模型按照以下步骤进行训练:
[0011]构建多源卫星调度模型,并利用所述多源卫星调度模型执行调度任务,得到调度经历;
[0012]将任务收益为正值的调度经历作为好的调度经历放入正缓冲区进行保存,将任务收益为负值的调度经历作为不好的调度经历放入负缓冲区进行保存,所述正缓冲区和所述负缓冲区的容量需要满足调度经历的存储需求;
[0013]在所述正缓冲区和所述负缓冲区的调度经历数量达到训练阈值后,分别从所述正缓冲区和所述负缓冲区随机采样等量的好的调度经历和不好的调度经历组成训练样本;
[0014]将所述训练样本输入到所述多源卫星调度模型进行学习,并基于多智能体深度确定性策略梯度对所述多源卫星调度模型的模型参数进行更新,在满足训练结束条件的情况下后,得到训练好的多源卫星调度模型。
[0015]可选地,所述多源卫星调度模型包括:推理模型和目标模型,所述推理模型由N个行动者模型和1个评判者模型按照多智能体深度确定性策略梯度结构的要求连接得到,所述目标模型由N个目标行动者模型和1个目标评判者模型按照多智能体深度确定性策略梯度结构的要求连接得到;所述基于多智能体深度确定性策略梯度对所述多源卫星调度模型的模型参数进行更新,包括:
[0016]所述多源卫星调度模型对输入的训练数据进行处理,得到状态价值;
[0017]以状态价值最大化为目标,基于状态价值的梯度分别对所述N个行动者模型的参数进行更新;
[0018]以最小化状态价值和期望状态价值之间的误差为目标,基于状态价值的误差对所述评判者模型进行参数更新;
[0019]采用指数平均移动的方式分别对所述N个目标行动者模型和1个目标评判者模型的参数进行更新。
[0020]可选地,在完成一次训练之后,所述方法还包括:
[0021]利用参数更新后的多源卫星调度模型执行一次任务的调度,得到一条新的调度经历;
[0022]将所述新的调度经历放入到对应的缓冲区之后,从所述正缓冲区和所述负缓冲区随机采样等量的好的调度经历和不好的调度经历组成新的训练样本;
[0023]将所述新的训练样本输入到所述参数更新后的多源卫星调度模型进行训练。
[0024]可选地,所述利用所述多源卫星调度模型执行调度任务,得到调度经历,包括:
[0025]将第i次调度的多源卫星状态输入到所述多源卫星调度模型,得到每个卫星的放弃执行第i个任务概率和执行第i个任务概率;
[0026]根据所述放弃执行第i个任务概率和所述执行第i个任务概率,判断每个卫星是否执行第i个任务,得到第i次调度结果;
[0027]根据所述第i次调度结果和第i个任务的任务信息,计算出每个卫星第i个任务的任务收益和第i+1次调度的多源卫星状态,并判断调度任务是否结束;
[0028]将所述第i次调度的多源卫星状态、所述每个卫星的放弃执行第i个任务概率和执行第i个任务概率、所述每个卫星第i个任务的任务收益、所述第i+1次调度的多源卫星状态、调度任务是否结束判断结果组成一次调度经历。
[0029]可选地,所述根据所述第i次调度结果和第i个任务的任务信息,计算出每个卫星第i个任务的任务收益,包括:
[0030]针对选择不执行第i个任务的卫星,每个卫星第i个任务的任务收益为0;
[0031]针对选择执行第i个任务的卫星,每个卫星第i个任务的任务收益相同,所述第i个任务的任务收益,表示为:
[0032][0033]其中,表示卫星l选择执行第i个任务的任务收益,ω
i
表示第i个任务的优先级,k
i
表示所有选择执行任务i的卫星总数目,storage_consume
i
表示代表第i个任务所需要的内存占用。
[0034]可选地,所述判断调度任务是否结束,包括:
[0035]检测每个卫星的剩余可用容量;
[0036]在所有卫星的剩余可用容量都无法再执行一个任务的情况下,判断调度任务已经完成,否则判断调度任务没有完成。
[0037]可选地,所述多源卫星状态中的每一个卫星状态包括:任务的优先级、所有卫星在决策任务时的容量可用率、所有卫星在决策任务时的总执行任务时间比例;所述获取当前多源卫星的状态,包括:
[0038]利用当前任务的优先级替代所述上一次调度时多源卫星状态中的任务的优先级;
[0039]根据所述上一次调度结果,对所述上一次调度时多源卫星状态中执行任务的卫星的容量可用率和总执行任务时间比例进行更新;
[0040]将更新后的多源卫星的状态作为当前多源卫星的状态。
[0041]可选地,在每一幕调度任务开始时,按照以下方式设置多源卫星的初始化状态:
[0042]将第一个任务的优先级设置为所述初始化状态的任务的优先级;
[0043]将所有卫星在决策任务时的容量可用率设置为1;
[0044]将所有卫星在决策任务时的总执行任务时间比例设置为0。
[0045]可选地,每个卫星的放弃执本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的多源卫星调度方法,其特征在于,所述方法包括:获取当前多源卫星状态,所述当前多源卫星状态是在上一次调度时多源卫星状态的基础上,根据上一次调度结果和当前任务的任务信息更新得到的;将所述当前多源卫星状态输入预先训练的多源卫星调度模型,得到每个卫星的放弃执行任务概率和执行任务概率;基于所述放弃执行任务概率和执行任务概率,结合随机函数判断每个卫星是否执行所述当前任务,得到多源卫星调度结果;其中,所述多源卫星调度模型是基于等量的好的调度经历和不好的调度经历组成训练样本,并基于深度强化学习训练得到的,所述好的调度经历是指任务收益为正的调度经历,所述不好的调度经历是指任务收益为负的调度经历。2.根据权利要求1所述的方法,其特征在于,所述多源卫星调度模型按照以下步骤进行训练:构建多源卫星调度模型,并利用所述多源卫星调度模型执行调度任务,得到调度经历;将任务收益为正值的调度经历作为好的调度经历放入正缓冲区进行保存,将任务收益为负值的调度经历作为不好的调度经历放入负缓冲区进行保存,所述正缓冲区和所述负缓冲区的容量需要满足调度经历的存储需求;在所述正缓冲区和所述负缓冲区的调度经历数量达到训练阈值后,分别从所述正缓冲区和所述负缓冲区随机采样等量的好的调度经历和不好的调度经历组成训练样本;将所述训练样本输入到所述多源卫星调度模型进行学习,并基于多智能体深度确定性策略梯度对所述多源卫星调度模型的模型参数进行更新,在满足训练结束条件的情况下后,得到训练好的多源卫星调度模型。3.根据权利要求2所述的方法,其特征在于,所述多源卫星调度模型包括:推理模型和目标模型,所述推理模型由N个行动者模型和1个评判者模型按照多智能体深度确定性策略梯度结构的要求连接得到,所述目标模型由N个目标行动者模型和1个目标评判者模型按照多智能体深度确定性策略梯度结构的要求连接得到;所述基于多智能体深度确定性策略梯度对所述多源卫星调度模型的模型参数进行更新,包括:所述多源卫星调度模型对输入的训练数据进行处理,得到状态价值;以状态价值最大化为目标,基于状态价值的梯度分别对所述N个行动者模型的参数进行更新;以最小化状态价值和期望状态价值之间的误差为目标,基于状态价值的误差对所述评判者模型进行参数更新;采用指数平均移动的方式分别对所述N个目标行动者模型和1个目标评判者模型的参数进行更新。4.根据权利要求3所述的方法,其特征在于,在完成一次训练之后,所述方法还包括:利用参数更新后的多源卫星调度模型执行一次任务的调度,得到一条新的调度经历;将所述新的调度经历放入到对应的缓冲区之后,从所述正缓冲区和所述负缓冲区随机采样等量的好的调度经历和不好的调度经历组成新的训练样本;将所述新的训练样本输入到所述参数更新后的多源卫星调度模型进行训练。5.根据权利要求2所述的方法,其特征在于,所述利用所述多源卫星调度模型执行调度
任务,得到调度经历,包括:将第i次调度的多源卫星状态输入到所述多源卫星调度模型,得到每个卫星的放弃执行第i个任务概率和执行第i个任务概率;根据所述放弃执行第i个任务概率和所述执行第i个任务概率,判断每个卫星是否执行第i个任务,得到第i次调度结果;根据所述第i次调度结果和第i个任务的任务信息,计算出每个卫星第i个任务的任务收益和第i+1次调度的...
【专利技术属性】
技术研发人员:王学谦,丁勇康,李刚,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。