基于深度强化学习的卫星实时引导任务规划方法及系统技术方案

技术编号:26379020 阅读:47 留言:0更新日期:2020-11-19 23:47
本发明专利技术提供了一种基于深度强化学习的卫星实时引导任务规划方法及系统,包括:场景建立步骤:建立“时间‑姿态”二维化的卫星成像任务规划训练场景;提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。本发明专利技术采用将卫星轨道和目标经纬度进行“时间‑侧摆”二维化映射的方法,在不牺牲数据精度的前提下,降低强化学习环境状态空间的维度,可以在保留所有有效信息的前提下,提升智能体训练收敛的速度。

【技术实现步骤摘要】
基于深度强化学习的卫星实时引导任务规划方法及系统
本专利技术涉及卫星任务规划领域,具体地,涉及一种基于深度强化学习的卫星实时引导任务规划方法及系统,尤其是一种用于遥感卫星实时引导任务规划深度强化学习训练的实现方法。
技术介绍
当前遥感卫星领域存在着有限的观测资源和日益复杂化、即时化成像需求之间的矛盾,提高对观测资源的调度水平,可以使有限的观测资源更好地适应复杂高时效性的任务需求,这使得卫星任务规划成为了一个研究热点。近年来,成像卫星领域开始兴起使用发现载荷和确认载荷配合进行目标发现及成像的实时引导成像体制,本专利技术面向此类常见的卫星对地实时发现目标并确认的场景,对地成像卫星正在向前飞行,部分潜在的目标分布在卫星过顶该区域前不可知,大范围的视场是卫星的目标发现视场,小范围视场为成像载荷的视场。仅发现目标不等于有效成像,只有将进入发现视场后的目标进行规划和成像,使散点被纳入可见光相机对地机动成像的安排并成功覆盖,才代表成像成功。这样的场景为卫星自主决策能力提出了较高要求,也为强化学习方法提供了实践的可能。在强化学习中,智能体在一个设定的环境中获得环境的状态信息,并在此基础上采取动作,相应的动作会使智能体获得一定的反馈(奖励或惩罚),同时智能体所处环境会进入新的状态,在从此不断的反馈获得和状态变化中,智能体的策略和决策机制将逐渐向奖励最优化进化,最终学到完成相应任务的最优动作(最优策略),以上就是强化学习的过程。常规的任务规划研究,是多约束条件下的寻优算法研究,随着在轨的卫星系统常建常新,规划问题的约束也会有改变,使用深度强化学习的方法,可以通过训练使智能体适应约束变化,提高规划表现,专利文献:张宇喆等,采用病毒进化遗传算法进行多星任务规划的搜索处理方法(CN101975946A),通过在遗传算法的基础上通过病毒干扰和删减进行进化解的传递,但其在解决问题前需要获得所有的输入条件。对比已公开方法:王冲,基于Agent的对地观测卫星分布式协同任务规划研究(博士论文,国防科技大学2011年),基于多智能体强化学习的思想迭代搜索协同规划学习策略,但其仍存在学习时间较长的情况。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于深度强化学习的卫星实时引导任务规划方法及系统。根据本专利技术提供的一种基于深度强化学习的卫星实时引导任务规划方法,包括:场景建立步骤:建立“时间-姿态”二维化的卫星成像任务规划训练场景;提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。优选地,场景建立步骤包括:步骤S101:建立卫星任务规划训练环境;场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);步骤S102:目标分布的“时间-侧摆”二维化映射化;解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解。优选地,提取转化步骤包括:步骤S201:将卫星成像任务规划过程转化为多阶段决策过程;卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;步骤S202:确定智能体在当前状态下可采取的动作;确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1;步骤S203:确定智能体采取某一动作的代价;智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;步骤S204:确定智能体在当前阶段结束时获得的奖励R;智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;步骤S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。优选地,对接步骤包括:步骤S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;步骤S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。优选地,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。根据本专利技术提供的一种基于深度强化学习的卫星实时引导任务规划系统,包括:场景建立模块:建立“时间-姿态”二维化的卫星成像任务规划训练场景;提取转化模块:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;对接模块:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;强化学习模块:利用深度强化学习对卫星成像任务规划过程进行学习。优选地,场景建立模块包括:模块S101:建立卫星任务规划训练环境;场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);模块S102:目标分布的“时间-侧摆”二维化映射化;解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解。优选地,提取转化模块包括:模块S201:将卫星成像任务规划过程转化为多阶段决策过程;卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的卫星实时引导任务规划方法,其特征在于,包括:/n场景建立步骤:建立“时间-姿态”二维化的卫星成像任务规划训练场景;/n提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;/n对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;/n强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。/n

【技术特征摘要】
1.一种基于深度强化学习的卫星实时引导任务规划方法,其特征在于,包括:
场景建立步骤:建立“时间-姿态”二维化的卫星成像任务规划训练场景;
提取转化步骤:对卫星成像任务规划训练场景的智能体训练要素状态、动作、代价、奖励、结束条件进行提取与转化;
对接步骤:使用深度学习算法与所述卫星成像任务规划训练场景进行对接;
强化学习步骤:利用深度强化学习对卫星成像任务规划过程进行学习。


2.根据权利要求1所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,场景建立步骤包括:
步骤S101:建立卫星任务规划训练环境;
场景内包括卫星的初始位置和目标的位置,卫星和目标的位置都使用在WGS84坐标系下的位置速度表示,初始时刻T0,卫星位置速度为(xs,ys,zs,vx,vy,vz),目标i的位置为(xi,yi,zi);
步骤S102:目标分布的“时间-侧摆”二维化映射化;
解出卫星对预设目标的可见性,统一转化为“时间-姿态”信息,使卫星通过选择合适的姿态或载荷指向,随着轨道飞行,在载荷对目标可见弧段内,能够使视场中心指向地面目标的解。


3.根据权利要求2所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,提取转化步骤包括:
步骤S201:将卫星成像任务规划过程转化为多阶段决策过程;
卫星成像任务规划过程T根据等长的时间间隔Δt划分成N个阶段,初始阶段为0,每个阶段智能体都能进行一次决策,设定在某一阶段k的当前的状态sk,状态同时包含卫星当前的侧摆角γk和本阶段所有的目标信息Tk,目标信息Tk包括目标的有效性fk与视场内目标的“时间-侧摆”二维化参数每个目标的价值pi,智能体在阶段k面向当前的状态sk进行决策;
步骤S202:确定智能体在当前状态下可采取的动作;
确定在k阶段当前的状态sk下,智能体可采取的动作ak为侧摆角的转移,使用ak描述智能体在k阶段进行的状态转移,转移后的状态为sk+1;
步骤S203:确定智能体采取某一动作的代价;
智能体采取动作的代价为进行一次侧摆角的转移后需要受到卫星姿态转移能力的限制一定阶段内不能采取动作,限制时间tL由侧摆的角度量、卫星侧摆的角速度ω和偏流角修正时间tR决定;
步骤S204:确定智能体在当前阶段结束时获得的奖励R;
智能体在阶段k获得奖励Rk的方式为载荷视场格覆盖目标时长达到Tv以上得分,覆盖时长为常量得到的奖励分数根据目标的等级赋予,Tv是单次成像所需时间的常量;
步骤S205:确定整个训练时间过程结束条件为设定的任务规划过程结束时间到。


4.根据权利要求3所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,对接步骤包括:
步骤S301:使用深度学习算法与卫星任务规划训练环境进行对接,构建的DQN算法利用卷积神经网络逼近行为值函数、利用经验回放进行训练、设置目标网络;
步骤S302:将建立起包括状态、动作、动作代价、奖励的卫星任务规划训练环境与DQN及值函数连接,利用梯度下降法的方式更新值函数。


5.根据权利要求4所述的基于深度强化学习的卫星实时引导任务规划方法,其特征在于,卷积神经网络采用1层全链接和3层全链接两种结构进行验证,其中1层全链接的网络结构为:隐含层100个节点,激活函数为Relu;3层全链接的网络结构为:3层隐含层节点数量分别为200、100、50,激活函数为Relu。

【专利技术属性】
技术研发人员:伍国威崔本杰曲耀斌钱丰杨勇童庆为曹岸杰邓武东
申请(专利权)人:上海卫星工程研究所
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1