【技术实现步骤摘要】
一种分布式信道汇聚策略生成方法及装置
[0001]本专利技术涉及通信
,尤其涉及一种分布式信道汇聚策略生成方法及装置。
技术介绍
[0002]目前,随着集群控制算法与通信技术耦合等集群核心技术的发展,在军事需求和高新科技进步的双重驱动下,一些军事强国纷纷加入无人集群技术装备研发行列,并不同程度地取得一定成果。无人集群通常采用动态无中心自组网技术,能通过协同实现整体能力放大,借助自主技术,无人集群作战装备能够根据战场形势及时改变群体位置和结构,链接为一个有机整体,实现作战效能的最大化,特别是在部分甚至大部分个体严重受损的情况下,仍然能保持其他个体继续协同作战并完成任务,是具有极强韧性的重要战场制胜手段。
[0003]但是,当前无人集群作战系统智能化程度仍较低,自动化、自主性和远程遥控水平尚无法满足日益复杂和激烈的战场对抗环境,特别是缺乏足够的感知、分析、计划、决策和执行能力,在对战场态势的自主感知和作战行动的自主实施等方面离实用化还有较大距离。
[0004]分布式信道盲汇聚是无人集群作战亟需解决的关键技术 ...
【技术保护点】
【技术特征摘要】
1.一种分布式信道汇聚策略生成方法,其特征在于,包括:构建基于深度强化学习网络的信道汇聚优化模型,并对所述信道汇聚优化模型的参数进行初始化;其中,所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应,所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间,所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间;根据预设的用户端序列确定多智能体优化顺序,并基于所述多智能体优化顺序对各个智能体进行迭代学习;针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作,并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q值进行更新;其中,所述回报值由所述环境根据当前的信道情况生成;在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后,对所述状态空间、所述回报值和所述退火温度进行更新;当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时,根据所有智能体的Q值之和生成最优盲汇聚策略;其中,所述累计回报为迭代学习过程中所有回报值之和。2.根据权利要求1所述的分布式信道汇聚策略生成方法,其特征在于,所述用户端序列的确定方式包括:对所述无人集群系统的所有用户端进行排列组合,并将所有排列组合情况对应的序列作为所述用户端序列。3.根据权利要求1所述的分布式信道汇聚策略生成方法,其特征在于,所述回报值的生成方式包括:计算当前的用户端对应的MOS值,按预设的回报值奖励函数对所述MOS值进行转换,生成得到当前的智能体的回报值。4.根据权利要求3所述的分布式信道汇聚策略生成方法,其特征在于,所述按预设的转换公式对所述MOS值进行转换生成得到当前的用户端对应的智能体获得的回报值,还包括:当判断所述MOS值低于预设的门限值时,将预设的负反馈值作为当前的智能体的回报值。5.根据权利要求1所述的分布式信道汇聚策略生成方法,其特征在于,对所述信道汇聚优化模型的参数进行初始化,包括:对用于汇总所有Q值的Q矩阵初始化为全零矩阵;根据预设的配置信息对所述贝尔曼方程的学习率和折扣因子以及模拟退火算法的初始温度进行...
【专利技术属性】
技术研发人员:钟都都,庄信武,张伟科,王帅,宋哲,苗夏箐,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。