一种基于强化学习的卫星任务规划演化方法、系统及设备技术方案

技术编号：34559117 阅读：35 留言：0更新日期：2022-08-17 12:46

本发明专利技术提供了一种基于强化学习的卫星任务规划演化方法、系统及设备，该系统包括：数据输入模块，用于输入原始数据；初始化模块，用于初始化算法参数，及初始化Q值表；最优方案计算模块，用于通过种群算法及Q值表更新算法，获得优化方案；任务时间窗选择模块，与所述优化方案模块进行数据交互，并基于所述最优方案计算模块的传送数据，形成任务规划方案。本方案构建了更为精细化的模型，并结合QGA设计优化了最优方案的规划方式，针对EDSSP问题能够得到更有实际价值的规划方案，弥补了技术空白。弥补了技术空白。弥补了技术空白。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的卫星任务规划演化方法、系统及设备

[0001]本专利技术涉及计算机数据处理及卫星任务规划领域，尤其是涉及一种求解电磁探测卫星任务规划问题的基于强化学习的演化方法、系统及设备。

技术介绍

[0002]近年来，航天的飞速发展为信息通信、环境监测、灾害预报等各类型任务提供了新的解决方案。卫星所能发挥的作用根据搭载载荷的不同可以分为观测、通信和导航卫星三类。观测卫星可以按照搭载可见光、红外线、合成孔径雷达、天线等设备进行进一步的分类。使用信号接收机、天线作为载荷的卫星被称为电磁探测卫星。电磁探测卫星与光学成像卫星相比探测范围更广，不容易受到天气因素的影响，所能产生的探测收益也更为稳定可靠。电磁探测卫星对电磁信号探测、处理，获取有用的信息。在具备对已知信号特征目标探测的基础上，电磁探测卫星还可以通过大范围的频段搜索发现未知信号。
[0003]我们生活的地球表面存在大量的电磁信号，众多的电磁信号共同构成了地表电磁环境。对地表电磁环境探测可以有效支撑环境、农业、军事、气象等各个领域的工作。探测需求由各种类型的用户...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的卫星任务规划演化方法，其特征在于，所述方法包括：步骤1、初始化算法参数，初始化Q值表；步骤2、若评价次数num_eval＜最大函数值评价次数，则执行步骤3，否则执行步骤11；步骤3、计算Q值表中的(Q
t
(s
i
,a
j
),T)得到动作被选中的概率；其中，s
i
表示第i个状态，T为控制参数，a
j
表示动作j，Q
t
表示t时刻的Q值；步骤4、基于步骤3的结果，选中一个动作及一个个体，令循环变量p从1至N
p
单次增加1进行循环，进行个体交叉变异，获得新个体，针对新个体形成规划方案，计算目标函数值；其中，N
p
表示种群规模；步骤5、基于新个体计算reward之后更新Q值，得到新的Q值表；步骤6、从当代种群中搜索最优目标函数值及其在种群中对应的位置序号；步骤7、若当代种群最优目标函数值大于搜索过程中最优目标函数值，则将搜索过程最优目标函数值更新为当代种群最优目标函数值，并将搜索过程最优个体更新为当代种群最优个体；否则，当count小于阈值Thre时，将当代种群最优个体用搜索过程最优个体替代，并将当前种群最优函数值更新为搜索过程最优函数值；步骤8、若当代最优目标函数值差于上一代最优目标函数值，则目标函数值控制参数count加1；步骤9、更新时刻t，令t＝t+1；步骤10、将当代种群最优适应度函数值更新为上一代种群最优函数值，返回步骤2；当满足评价次数num_eval等于最大函数值评价次数条件时，执行步骤11；步骤11、保存最终的种群最优函数值对应的最优个体，将最优个体对应的执行方案作为优化方案。2.根据权利要求1所述的方法，其特征在于，所述步骤1中的初始化，包括构造一初始解，个体表示与任务序列的序号一一对应。3.根据权利要求1所述的方法，其特征在于，所述适应度函数值使用目标函数值表示，所述目标函数为：其中，表示带宽设定对应的增益函数，degree
j
表示重要性程度，表示基于重要性程度设置的带宽，G
j
表示探测任务j的探测增益，i表示第i个卫星，S表示卫星集合，T表示任务集合，o表示轨道，O
i
表示卫星i的轨道集合，k表示一时间窗，TW表示时间窗集合，x
ijok
表示卫星i是否在轨道o上的第k个时间窗是否执行任务j。4.根据权利要求3所述的方法，其特征在于，所述探测增益G
j
的求解方式为：的求解方式为：
其中，u＝2.07123sin(θ)/sin(θ
3dB
)...

【专利技术属性】
技术研发人员：姚锋，宋彦杰，王翔汉，闫俊刚，杜永浩，何磊，张忠山，陈盈果，刘晓路，吕济民，陈宇宁，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人