System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种天地联合智能抗干扰方法及装置制造方法及图纸_技高网

一种天地联合智能抗干扰方法及装置制造方法及图纸

技术编号:42656077 阅读:32 留言:0更新日期:2024-09-10 12:16
本发明专利技术公开了一种天地联合智能抗干扰方法及装置,属于飞行器测控和抗干扰通信领域,包括:在飞行器部署频谱环境表征模块、环境状态抽象模块、神经网络决策模块、抗干扰策略执行模块、行为回报估算模块和经验构建模块;在地面站部署经验池模块、经验抽样模块、近端策略优化模块、神经网络训练模块。本发明专利技术通过地面站辅助飞行器决策网络进行最优化离线训练,能够在降低对飞行器运算能力、功率资源需求的同时,提升抗干扰决策收敛速度和决策准确性,提升抗干扰效能。

【技术实现步骤摘要】

本专利技术涉及飞行器测控和抗干扰通信领域,更为具体的,涉及一种天地联合智能抗干扰方法及装置


技术介绍

1、飞行器测控通信链路是建立在卫星、火箭等飞行器与地面站之间的天地链路,是地面站为飞行器进行远距离实时测量、控制和数据传输的“生命线”,天地链路正常工作是飞行器能够正常运行并发挥效能的基础。天地链路暴露在开放空间中,极易受到各种有意、无意干扰的威胁。天地链路现有体制本身所具备的抗干扰能力,例如扩频体制和跳频体制,虽然能够依靠扩频增益、跳频增益获得一定的抗干扰容限,但是工作模式相对固定,抗干扰能力有限,且容易被针对性干扰,缺乏适应能力,难以应对复杂多变的干扰环境。

2、近年来,随着以深度强化学习为代表的人工智能技术的发展和演进,人工智能技术在通信抗干扰领域得到了广泛应用。从已有研究来看,基于深度强化学习的抗干扰方法能够通过“试错”的方式在决策交互过程中学习信道信息和干扰源信息,并基于训练优化决策策略,从而做出正确的抗干扰决策,取得很好的抗干扰性能。然而深度强化学习的收敛复杂度取决于迭代次数和所使用的网络复杂度。在深度强化学习机制下,用于决策的深度神经网络结构相对复杂,卫星、火箭等飞行器受到运算能力、功率资源等限制,无法在有限复杂度约束下独立通过大量交互经验信息完成对复杂神经网络的训练,导致抗干扰决策无法收敛,无法发挥抗干扰能力。

3、因此,亟需研究一种新颖有效的适应飞行器资源约束的飞行器测控通信链路智能抗干扰方法。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足,针对现有的基于深度强化学习的智能抗干扰方法无法适应飞行器资源约束的技术问题,提供一种天地联合智能抗干扰方法及装置,在飞行器端部署基于深度强化学习的抗干扰决策单元,在地面站端构建与飞行器相同的深度神经网络,开展离线网络最优化训练,辅助飞行器进行决策网络参数更新,从而执行有效的抗干扰决策,选择合适的抗干扰措施提升飞行器测控通信链路的抗干扰效能。

2、本专利技术的目的是通过以下方案实现的:

3、一种天地联合智能抗干扰装置,包括:

4、在飞行器端部署频谱环境表征模块、环境状态抽象模块、神经网络决策模块、抗干扰策略执行模块、行为回报估算模块和经验构建模块;在地面站端部署经验池模块、经验抽样模块、近端策略优化模块、神经网络训练模块,神经网络决策模块和神经网络训练模块采用相同的深度神经网络,分别命名为决策神经网络和训练神经网络;

5、频谱环境表征模块根据无线信道环境的采样数据生成频谱信息;环境状态抽象模块根据频谱信息构建环境状态;神经网络决策模块根据环境状态向量执行抗干扰决策,从抗干扰行为集中选择抗干扰行为,驱动抗干扰策略执行模块执行抗干扰行为;抗干扰行为改变无线信道环境,从而形成闭环的智能抗干扰;行为回报估算模块根据回报函数估算行为回报值;经验构建模块由当前的环境状态、抗干扰行为、行为回报值以及转移后的环境状态共同构建经验组,飞行器把经验组反馈给地面站,存入地面站的经验池模块中;经验抽样模块从经验池模块中抽取一定数量的经验组形成经验训练集,送入近端策略优化模块进行训练参数计算;近端策略优化模块针对决策神经网络的轨迹分布与训练神经网络的轨迹分布之间存在的偏差,通过引入散度进行克服,进一步对深度神经网络训练所需要的平均累积回报梯度进行估计;神经网络训练模块开展深度神经网络参数训练,根据近端策略优化模块估计出来的平均累积回报梯度,对训练神经网络进行参数更新;地面站将神经网络训练模块收敛后的训练神经网络参数上注给飞行器,对神经网络决策模块的决策神经网络进行更新。

6、一种天地联合智能抗干扰方法,包括以下步骤:

7、步骤1:频谱环境表征模块根据无线信道环境的采样数据生成频谱信息,环境状态抽象模块根据频谱信息构建环境状态,时刻t的环境状态st由全频谱功率p(t)、干扰类型干扰带宽链路可达传输速率r(t)、信干噪比sinr(t)、链路锁定状态c(t)和链路误码率ber(t)共同构造,表示为:

8、步骤2:神经网络决策模块根据环境状态向量执行抗干扰决策,从抗干扰行为集中选择抗干扰行为,驱动抗干扰策略执行模块执行抗干扰行为,时刻t的抗干扰行为集at包括传输子信道、调制编码方式、扩频倍数和发射功率,分别表示为f(t)、m(t)、即

9、步骤3:抗干扰行为改变无线信道环境,从而形成闭环的智能抗干扰;

10、步骤4:频谱环境表征模块根据改变后的无线信道环境的采样数据生成时刻t+1的频谱信息;环境状态抽象模块根据频谱信息构建时刻t+1的环境状态

11、步骤5:行为回报估算模块根据回报函数估算行为回报值:回报函数表示为其中,b0为子信道带宽,sinr(t)为时刻t的链路信干噪比;cp为单位功率发射代价系数;ch为链路重建代价系数;f(φ)是指示函数,当φ成立时函数值为1,否者为0;||为“或”函数;

12、步骤6:经验构建模块由时刻t的环境状态、抗干扰行为、行为回报值以及转移后时刻t+1的环境状态共同构建经验组<st,at,rt,st+1>,飞行器把经验组反馈给地面站,存入地面站的经验池中;

13、步骤7:经验抽样模块从经验池中抽取一定数量的经验组形成经验训练集,送入近端策略优化模块进行训练参数计算;

14、步骤8:近端策略优化模块针对决策神经网络的轨迹分布pθ(at|st)与训练神经网络的轨迹分布qθ'(at|st)之间存在的偏差,引入散度进行克服;定义其中,tn为第n个回合的总时长,ba(g)为预设门限,λ为折扣因子;对深度神经网络训练所需要的平均累积回报梯度表示为根据公式实现对的估计,β是散度因子,β∈(0,1);

15、步骤9:神经网络训练模块开展深度神经网络参数训练,根据近端策略优化模块估计出来的基于对训练神经网络进行参数更新,η为学习率;

16、步骤10:地面站将神经网络训练模块收敛后的训练神经网络参数θ'上注给飞行器,对神经网络决策模块的决策神经网络θ进行更新:θ←θ'。

17、本专利技术的有益效果包括:

18、(1)本专利技术针对飞行器测控通信链路面临的干扰问题,基于频谱环境表征、抗干扰决策、抗干扰策略执行和行为回报估算等步骤,构建了闭环的“观察—判断—决策—行动(observe-orient-decide-act,ooda)”智能抗干扰架构,能够根据干扰环境变化自主优化抗干扰策略,提升飞行器测控通信系统对于环境的适应能力。

19、(2)本专利技术提出了一种天地联合的智能抗干扰模型,在地面站构建与飞行器相同的深度神经网络,基于飞行器与干扰环境进行交互获得的经验信息,充分利用地面站充裕的计算、存储和功率资源,辅助飞行器决策网络进行离线训练,从而解决了飞行器资源受限,无法独立完成复杂神经网络的及时训练而导致的智能抗干扰无法收敛的问题。

20、(3)本专利技术针对使用延迟经验组进行离线训练带来的决策神经网络和训练神经网络不同步的问题,提出本文档来自技高网...

【技术保护点】

1.一种天地联合智能抗干扰装置,其特征在于,包括:

2.一种天地联合智能抗干扰方法,其特征在于,包括以下步骤:

【技术特征摘要】

1.一种天地联合智能抗干扰装置,其特征在于,包括:

【专利技术属性】
技术研发人员:刘田马松余湋王军
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1