一种基于深度强化学习的信号隐蔽抗干扰方法和装置制造方法及图纸

技术编号:26346461 阅读:60 留言:0更新日期:2020-11-13 21:22
本发明专利技术公开了一种基于深度强化学习的信号隐蔽抗干扰方法和装置,其方法包括:用户通过接收机接收当前时刻的环境状态信息,基于深度强化学习网络选择当前时刻的用户决策,并将用户决策保存至预设的历史决策序列表中,将用户决策发送至接收机,由接收机控制发射机发射用户信号;基于干扰决策估计网络将干扰决策与用户历史决策序列进行拟合处理,得到网络误差值并将其作为用户当前时刻的瞬时回报,据此更新深度强化学习网络,基于更新后的深度强化学习网络对环境状态信息进行拟合处理,选择下一时刻的用户决策。本发明专利技术通过不断进行数据训练,深度强化学习网络得到下一时刻信道选择的最优解,不仅能够提高抗干扰性能,同时避免用户信息泄露。

【技术实现步骤摘要】
一种基于深度强化学习的信号隐蔽抗干扰方法和装置
本专利技术主要涉及通信抗干扰
,具体涉及一种基于深度强化学习的隐蔽抗干扰方法和装置。
技术介绍
通信领域中抗干扰问题一直是一个热门的话题,如何在干扰环境下实现稳健的通信备受研究者们的关注。随着人工智能技术引入通信对抗领域,具备一定学习能力的干扰设备给抗干扰问题带来更严峻的挑战,为提升应对智能干扰攻击的能力,越来越多的智能算法被应用到抗干扰问题中。例如需要提前已知一些先验概率的机器学习和人工蜂群等智能算法;针对环境先验信息未知且难以获取的现实问题,运用较为广泛的强化学习算法。总结上述方法的共有特点,皆是从最大化躲避干扰概率的角度设计决策方法,虽然能够提升抗干扰性能,但通信方的信号波形和频率决策过程仍然会暴露给干扰方,随着上述信息不断泄露,以及干扰方学习能力的提升,抗干扰效果就会逐渐下降。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于深度强化学习的信号隐蔽抗干扰方法、装置及存储介质。本专利技术解决上述技术问题的技术方案如下:一种本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的信号隐蔽抗干扰方法,其特征在于,包括如下步骤:/nS1:通过用户接收机获得当前时刻环境状态中的用户信号和干扰信号,所述用户信号来自于用户发射机,所述干扰信号来自于干扰机;/nS2:通过所述用户信号和所述干扰信号得到当前时刻的环境状态信息,基于深度强化学习网络对所述环境状态信息进行拟合处理,输出当前时刻初始的用户决策,并将所述用户决策保存至预设的历史决策序列表中;/nS3:将所述用户决策发送至所述用户接收机中,所述用户决策用于供所述接收机控制所述用户发射机发射用户信号;/nS4:通过所述环境状态信息得到当前时刻干扰机的干扰决策,基于干扰决策估计网络将所述干扰决策与所述历...

【技术特征摘要】
1.一种基于深度强化学习的信号隐蔽抗干扰方法,其特征在于,包括如下步骤:
S1:通过用户接收机获得当前时刻环境状态中的用户信号和干扰信号,所述用户信号来自于用户发射机,所述干扰信号来自于干扰机;
S2:通过所述用户信号和所述干扰信号得到当前时刻的环境状态信息,基于深度强化学习网络对所述环境状态信息进行拟合处理,输出当前时刻初始的用户决策,并将所述用户决策保存至预设的历史决策序列表中;
S3:将所述用户决策发送至所述用户接收机中,所述用户决策用于供所述接收机控制所述用户发射机发射用户信号;
S4:通过所述环境状态信息得到当前时刻干扰机的干扰决策,基于干扰决策估计网络将所述干扰决策与所述历史决策序列表中的用户决策进行拟合处理,得到当前时刻的网络误差值,将所述网络误差值作为当前时刻的瞬时回报;
S5:当环境状态向下一时刻的环境状态转移时,将环境状态信息、当前时刻的瞬时回报和当前时刻初始的用户决策作为当前时刻的经验信息,并将所述当前时刻的经验信息存储至预设经验数据集中,返回执行步骤S1,直至所述预设经验数据集中存储的经验信息的数量达到预设上限值时,执行步骤S6;
S6:根据所述预设经验数据集更新所述深度强化学习网络,基于更新后的深度强化学习网络对所述环境状态信息进行拟合处理,输出优化的用户决策;
S7:将所述优化的用户决策发送至所述用户接收机中。


2.根据权利要求1所述的信号隐蔽抗干扰方法,其特征在于,所述步骤S5具体为:
当环境状态向下一时刻的环境状态转移时,得到下一时刻的环境状态信息,并将当前时刻的环境状态信息、当前时刻初始的用户决策、当前时刻的瞬时回报以及下一时刻的环境状态信息一并作为经验信息,将所述经验信息存储至所述预设经验数据集中;
当所述预设经验数据集中存储的经验信息的数量达到预设上限值时,依据等概率方式从所述经验数据集中抽取经验信息,通过抽取的经验信息更新所述深度强化学习网络的权值θi。


3.根据权利要求2所述的信号隐蔽抗干扰方法,其特征在于,所述将当前时刻的环境状态信息、当前时刻初始的用户决策、当前时刻的瞬时回报以及下一时刻的环境状态信息一并作为经验信息,将所述经验信息存储至所述预设经验数据集中的过程包括:
设置用于存储上限为N个经验信息的经验数据集D;
定义所述经验信息为
其中,t为时刻,rt为瞬时回报,且rt=Loss,Loss为网络误差值,
St为t时刻的环境状态,St+1为t+1时刻的环境状态,为t时刻的用户决策,i为用户方,环境状态由St转为St+1。


4.根据权利要求3所述的信号隐蔽抗干扰方法,其特征在于,所述根据等概率方式从所述经验数据集中抽取所述经验信息,通过所述经验信息更新所述深度强化学习网络的权值θi的过程包括:
根据等概率方式从所述经验数据集中抽取经验信息;
根据所述经验信息构建目标值,所述目标值为



其中,γ表示奖励衰减系数,表示在环境St+1下网络输出的最大Q值,为t+1时刻的用户决策;
根据第一式和所述目标值更新所述深度强化学习网络的权值θi,所述第一式为:



其中,
直至抽取完成所述经验数据集中所有的经验信息。


5.根据权利要求1所述的信号隐蔽抗干扰方法,其特征在于,所述...

【专利技术属性】
技术研发人员:刘鑫王一凡王玫
申请(专利权)人:桂林理工大学
类型:发明
国别省市:广西;45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1