当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于强化学习的对抗智能攻击安全传输方法技术

技术编号:21719291 阅读:29 留言:0更新日期:2019-07-27 21:48
本发明专利技术公开了一种基于强化学习的对抗智能攻击安全传输方法,包括:S1,通过系统的导频信号,估计出主信道、干扰及欺骗信道的链路参数,再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比,实现发送端波束成形器、接收端滤波器的设计,抑制特定攻击模式及特定天线数的攻击者;S2,在波束成形器及滤波器的基础上,进行零和博弈,并基于强化学习的功率控制算法,在发送者与攻击者之间展开智能对抗;S3,动态地调整主信道发送与接收天线的数目,应用至波束成形器及滤波器、零和博弈过程,实现有效地抑制智能攻击模式、智能天线数的攻击者;本发明专利技术能够抑制智能攻击者的攻击意图,降低攻击概率,提高系统数据传输速率。

A Security Transmission Method Against Intelligent Attack Based on Reinforcement Learning

【技术实现步骤摘要】
一种基于强化学习的对抗智能攻击安全传输方法
本专利技术涉及网络通信安全领域,尤其涉及一种基于强化学习的对抗智能攻击安全传输方法。
技术介绍
作为快速发展的技术,人工智能已经被应用于各个领域,例如人脸识别,水位监测等,近来,把人工智能技术应用到无线通信领域已经得到了许多研究者的重视。在许多情况下,一个智能体不仅限于对目标进行识别与分类,还需要对所处的环境状态做出即时回应,自动采取恰当的动作。强化学习任务通常被认为是一个马尔科夫决策过程:智能体在当前时刻执行一个动作,同时环境根据奖赏函数回馈给智能体一个奖励,在环境中不断地试错与探索,智能体可以获得一个使得长期奖赏最大的策略。然而,在实际情况中,特别是在无线通信的安全问题上,智能体很难探测环境的状态空间和状态转移概率,Q学习算法可以很好地解决这个问题。安全无线传输对未来移动通信网络至关重要,但是拥有强化学习能力的智能攻击者会严重影响无线通信的安全性。对于无线系统中的发送者来说,很难去探测介于发送者与接收者之间的信道状态信息,更无法预测攻击者的动作模式。面对复杂的无线电环境,发送者能做的仅仅是可以自动控制自身的传输功率和天线数目,因此为无线通信系统采取安全传输策略显得尤为重要。以往的常规策略只能应对攻击天线数目不变的情况,而且要求发送者的天线数目远大于攻击者,但是在实际情况中,发送者与攻击者的天线数目很可能相同,解决这个问题是本专利技术的动因。
技术实现思路
本专利技术的目的是为了提高无线通信网络的物理层安全性,克服传统方案的不足;在波束成形和滤波器的辅助下,利用基于强化学习算法对发送者的传输功率进行调控,找到最优传输策略,抑制智能攻击者的攻击意图,降低攻击概率,提高系统数据传输速率。为了解决上述技术问题,本专利技术实施例提供了一种基于强化学习的对抗智能攻击安全传输方法,包括:通过系统的导频信号,估计出主信道、干扰及欺骗信道的链路参数,再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比,实现发送端波束成形器、接收端滤波器的设计,抑制特定攻击模式及特定天线数的攻击者;在波束成形器及滤波器的基础上,进行零和博弈,并基于强化学习的功率控制算法,在发送者与攻击者之间展开智能对抗;动态地调整主信道发送与接收天线的数目,应用至波束成形器及滤波器、零和博弈过程,实现有效地抑制智能攻击模式、智能天线数的攻击者。作为优选方案,所述计算链路参数过程包括:在发送端信号插入导频,在接收端利用导频恢复出导频位置的信道参数矩阵,然后对所述信道参数矩阵进行数据处理获得所有时段的信道链路参数。作为优选方案,所述对所述信道参数矩阵进行数据处理的方法包括内插处理、滤波处理和变换处理。作为优选方案,所述最大化主信道信噪比方法包括:对主信道的信道参数矩阵进行奇异值分解,取矩阵的的第一列向量作为波束成型器参数,即可最大化主信道信噪比。作为优选方案,所述最小化干扰及欺骗信道信噪比方法包括:对干扰及欺骗信道进行奇异值分解H2=UΛVH,取U矩阵的最后一列向量作为滤波器参数,即可最小化干扰及欺骗信道信噪比。作为优选方案,所述功率控制算法的步骤包括:步骤1,初始化攻击者的模式,即发送者的环境状态;发送者在可选功率范围内基于贪婪策略选择一个功率值发射信号,作为博弈的动作;步骤2,根据信息速率公式计算系统在攻击者不同模式下的传输速率,考虑天线数目变化带来的传输代价,以传输速率和传输代价的差值作为奖赏函数返回给发送者;步骤3,攻击者根据发送者的发送功率,在下一时刻采取相应的应对模式返回给发送者,作为下一时刻发送者的状态;步骤4,发送者选择使得奖赏函数最高的状态作为其功率选择策略,并随着博弈过程的时间序列不断更新;步骤5,重复以上步骤N次,取发送功率平均值,获得最优发送功率。作为优选方案,所述信息速率公式为香农公式。作为优选方案,所述动态地调整主信道发送与接收天线的数目,应用至波束成形器及滤波器、零和博弈过程,包括:每隔一段时间观察保持静默的概率,若低于某个阈值则增加一根天线数目;通过分析干扰及欺骗信道矩阵的维度变化,动态调整发送者和接受者的天线数目与攻击者相等。相比于现有技术,本专利技术实施例具有如下有益效果:提高无线通信网络的物理层安全性,克服传统方案的不足;在波束成形和滤波器的辅助下,利用基于强化学习算法对发送者的传输功率进行调控,找到最优传输策略,抑制智能攻击者的攻击意图,降低攻击概率,提高系统数据传输速率。附图说明图1:为本专利技术实施例中的步骤流程示意图;图2:为本专利技术实施例中的仿真实验数据结果第一示意图;图3:为本专利技术实施例中的仿真实验数据结果第二示意图;图4:为本专利技术实施例中的仿真实验数据结果第三示意图;图5:为本专利技术实施例中的仿真实验数据结果第四示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术中,我们考虑一个存在智能攻击者的对抗性无线通信系统,该智能攻击者可以在窃听,干扰,欺骗以及保持静默四种工作模式之间灵活切换,旨在减少系统的安全传输速率,而且攻击者可以自由地增加天线数目来增强攻击能力。为了应对智能攻击,我们首先设定发送者和合法接收者可以自适应地保持天线数目与攻击者一致,在发送端应用波束成形技术来抑制窃听,在接收端使用滤波器来阻止干扰和欺骗。再者,我们提出了一种基于Q学习的增强型安全传输策略,发送者和攻击者被认为是非合作零和博弈中的两个玩家,博弈期间攻击者在窃听,干扰,欺骗,或者静默中选择一种工作模式执行,把无线电环境从当前状态改变为下一个状态。同时,发送者把计算得来的安全传输速率作为反馈奖赏。通过结合蒙特卡洛和动态规划的方法,发送者最终会获得最优传输功率来最大化平均安全传输速率。最后,通过结合波束成形技术和滤波器来有效限制攻击者在攻击模式下的奖赏收益,我们推导出这个博弈下新的纳什均衡。请参照图1-图5,为达到上述目的,本专利技术实施的技术方案包括以下步骤:1)我们考虑一个存在智能攻击者的无线通信系统,其中攻击者可以在窃听,干扰,欺骗和静默四种工作模式之间自由切换,使用m=0,1,2和3来分别表示攻击者处于静默,窃听,干扰,欺骗四种模式。该系统中我们使用Alice,Bob,Eve来分别表示发送者,合法接受者和攻击者。使用pt来表示发送者的传输功率。Eve装备了多根天线并可以灵活增加其数目来提高攻击能力,为了应对这个问题,本专利技术使Alice和Bob使用的天线数自适应地与Eve相等,并在Alice上应用了波束成形技术,在Bob上使用了滤波器来阻止攻击。我们使用LA,LB和LE分别表示Alice,Bob和Eve所使用的天线数目。我们使用HAB~CN(0,αI),HAE~CN(0,βI)和HEB~CN(0,εI)分别表示Alice-Bob,Alice-Eve,和Eve-Bob链路的信道参数。此外,我们使用wA和wB分别表示波束成形向量和滤波器向量,然后Alice以功率pt发送经过波束成形的信号wAsA,SA已经被归一化。然后,Bob端接收的信号经过滤波器后,表示为当m=0和1时本文档来自技高网...

【技术保护点】
1.一种基于强化学习的对抗智能攻击安全传输方法,其特征在于,包括:通过系统的导频信号,估计出主信道、干扰及欺骗信道的链路参数,再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比,实现发送端波束成形器、接收端滤波器的设计,抑制特定攻击模式及特定天线数的攻击者;在波束成形器及滤波器的基础上,进行零和博弈,并基于强化学习的功率控制算法,在发送者与攻击者之间展开智能对抗;动态地调整主信道发送与接收天线的数目,应用至波束成形器及滤波器、零和博弈过程,实现有效地抑制智能攻击模式、智能天线数的攻击者。

【技术特征摘要】
1.一种基于强化学习的对抗智能攻击安全传输方法,其特征在于,包括:通过系统的导频信号,估计出主信道、干扰及欺骗信道的链路参数,再分别通过最大化主信道的信噪比、最小化干扰及欺骗信道的信噪比,实现发送端波束成形器、接收端滤波器的设计,抑制特定攻击模式及特定天线数的攻击者;在波束成形器及滤波器的基础上,进行零和博弈,并基于强化学习的功率控制算法,在发送者与攻击者之间展开智能对抗;动态地调整主信道发送与接收天线的数目,应用至波束成形器及滤波器、零和博弈过程,实现有效地抑制智能攻击模式、智能天线数的攻击者。2.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法,其特征在于,所述计算链路参数过程包括:在发送端信号插入导频,在接收端利用导频恢复出导频位置的信道参数矩阵,然后对所述信道参数矩阵进行数据处理获得所有时段的信道链路参数。3.如权利要求2所述的基于强化学习的对抗智能攻击安全传输方法,其特征在于,所述对所述信道参数矩阵进行数据处理的方法包括内插处理、滤波处理和变换处理。4.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法,其特征在于,所述最大化主信道信噪比方法包括:对主信道的信道参数矩阵进行奇异值分解,取矩阵的的第一列向量作为波束成型器参数,即可最大化主信道信噪比。5.如权利要求1所述的基于强化学习的对抗智能攻击安全传输方法,其特征在于,所述最小化干扰及欺骗...

【专利技术属性】
技术研发人员:范立生李超陈庆春夏隽娟谭伟强
申请(专利权)人:广州大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1