当前位置: 首页 > 专利查询>厦门大学专利>正文

一种面向无线通信安全的安全探索强化学习方法技术

技术编号:35649452 阅读:11 留言:0更新日期:2022-11-19 16:44
一种面向无线通信安全的安全探索强化学习方法,涉及无线通信的安全。引入状态风险网络和动作风险网络区分状态的风险和动作的风险,提高动作风险程度的拟合准确度,并利用动作风险程度修正动作的选择,避免探索危险策略,实现无线通信场景下的安全探索。方法包括:信息发送方使用价值网络评估当前状态下采取不同动作的长期累积回报,根据通信系统的性能评价指标和通信需求评估当前状态下采取不同动作的风险值,利用状态风险网络和动作风险网络拟合长期累积风险值并对价值网络的输出值进行修正,根据修正后的不同动作的价值进行安全传输策略的选择。可在无线通信安全应用中降低对风险策略的探索,提高无线通信的安全性。提高无线通信的安全性。

【技术实现步骤摘要】
一种面向无线通信安全的安全探索强化学习方法


[0001]本专利技术涉及无线通信的安全,属于现代无线通信安全领域,尤其是涉及一种面向无线通信安全的安全探索强化学习方法。

技术介绍

[0002]随着无线通信技术的飞速发展,例如无人机视频图传、语音通话和无线体域网等,无线通信已经和人们的生活息息相关。然而,无线通信由于其开放性,导致在通信过程中容易遭受干扰和窃听等攻击,严重威胁通信系统安全的隐私和安全。无线通信系统中通常利用跳频、功率控制等技术应对非法攻击,以提高通信系统的安全性。
[0003]强化学习在未知环境中通过“试错”的方式学习,无需预知干扰等攻击策略或信道状态等网络参数,在无线通信安全领域应用广泛。如中国专利CN112291495B提出一种基于强化学习的无线视频低时延抗干扰传输方法,使用一种改进的深度强化学习算法,将玻尔兹曼分布与DQN算法进行结合,动态优化传输信道、发射功率、编码调制方式以抵抗干扰攻击;中国专利CN113079167A提出一种基于深度强化学习的车联网入侵检测方法及系统,使用深度确定性策略梯度算法建立基于流量数据的入侵检测模型;中国专利CN113225794A提出一种基于深度强化学习的全双工认知通信功率控制方法,直接使用DQN算法去优化次级用户发射机的功率控制策略。
[0004]C.Dai等人[C.Dai,L.Xiao,X.Wan and Y.Chen,"Reinforcement learning with safe exploration for network security,"in Proc.IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Brighton,UK,May 2019.]提出一种针对网络安全的安全探索强化学习算法,利用安全性能指标评估动作的风险值,从而提高网络安全应用的安全性能。Lu X等人[Lu X,Xiao L,Niu G,et al.Safe Exploration in Wireless Security:A Safe Reinforcement Learning Algorithm with Hierarchical Structure[J].IEEE Transactions on Information Forensics and Security,2022.]提出一种基于动作选择优先级的分层结构和安全准则的安全强化学习算法,利用分层结构和动作风险评估准则压缩动作空间,优化无线通信安全应用的安全策略,从而预防网络崩溃等严重后果。Wachi Akifumi和Yanan Sui[Wachi A,Sui Y.Safe reinforcement learning in constrained markov decision processes[C]//International Conference on Machine Learning.PMLR,2020:9797

9806.]提出一种在未知安全约束下的马尔可夫决策过程探索和优化的方法,通过扩展安全区域来学习安全约束,然后在认证的安全区域内优化累积奖励,在约束马尔可夫决策过程中保证安全性的同时达到近似最优累积奖励。C.Tessler等人[C.Tessler,D.J.Mankowitz,and S.Mannor,“Reward constrained policy optimization,”in Proc.Int.Conf.Learning Representations(ICLR),New Orleans,LA,May 2019.]提出一种基于奖励约束的策略优化方法,该方法引入两个评判网络,分别拟合奖励和安全约束的回报,并将安全约束作为惩罚信号引入到奖励函数中,以实现强化学习的安全探索。
[0005]虽然上述现有基于强化学习的无线通信安全方案在无线通信安全场景中达到一定的抗干扰或者入侵检测等效果。但是大多数方案在初始学习阶段中没有考虑到风险策略的探索,例如导致通信中断的策略等,而且上述所提出的安全强化学习算法没有区分状态的风险和动作的风险,无法准确地拟合出动作风险程度。

技术实现思路

[0006]本专利技术的目的在于针对现有技术存在的上述问题,提供设计状态风险网络和动作风险网络,提高动作风险程度的拟合准确度,修正风险动作从而实现安全探索,避免选择造成系统通信中断的风险策略,提高无线通信安全性的一种面向无线通信安全的安全探索强化学习算法。
[0007]本专利技术包括以下步骤:
[0008]步骤1:初始化参数:
[0009]无线通信系统中需要传输数据包的总个数为K,每传输一个数据包的时间构成一个时隙,总时隙为{1,2,

,k,

,K};信息发送方能够调整N种无线通信安全策略,例如跳频、功率控制、编码调制方式等来应对无线通信中的干扰攻击;统计第i种安全策略p
i
(1≤i≤N)可行的取值个数为L
i
(1≤L
i
≤N),由所有可能的安全策略的组合组成的动作空间集合为T,动作空间集合中的动作个数为通信系统中有M个性能评价指标{d
i
}
1≤i≤M
,例如时延、误码率等,其中性能i(1≤i≤M)满足正常通信的条件为信息发送方能够感知J个通信状态信息{o
i
}
1≤i≤J
,例如信道状态和传输信息类型等;构建三个具有三层全连接层的神经网络V、网络S和网络A,网络V包含M+J个输入神经元、H个隐藏神经元和L个输出神经元;网络S包含M+J个输入神经元、H个隐藏神经元和1个输出神经元;网络A包含M+J个输入神经元、H个隐藏神经元和L个输出神经元;随机初始化三个神经网络的权重矩阵ω和ψ,初始化学习参数ζ∈(0,1)、缓存区采样个数B、随机探索概率η及初始性能{d
i(0)
}
1≤i≤M

[0010]步骤2:第k时隙,信息发送方接收上一时隙通信系统的性能评价指标{d
i(k

1)
}
1≤i≤M
并通过感知计算获得通信状态信息{o
i(k)
}
1≤i≤J
,构建系统当前状态
[0011]步骤3:信息发送方将状态s
(k)
分别作为网络V、网络S和网络A的输入,将网络V的输出记为V={V
m
}
1≤m≤L
,代表不同动作的价值;将网络S的输出记为S,代表当前状态的风险值;将网络A的输出记为A={A
m
}
1≤m≤L
,代表当前状态下采取不同的风险值;网络S和网络A的输出共同构成状态动作对的风险程度X={X
m
}
1≤m≤L

[0012][0013]步骤4:记Q值向量Q本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向无线通信安全的安全探索强化学习方法,其特征在于包括以下步骤:步骤1:构建三个具有三层全连接层的神经网络:网络V、网络S和网络A,初始化参数;步骤2:第k时隙,信息发送方接收上一时隙通信系统的性能评价指标并通过感知计算获得通信状态信息,构建系统当前状态s
(k)
;步骤3:信息发送方将状态s
(k)
分别作为网络V、网络S和网络A的输入,网络S和网络A的输出共同构成状态动作对的风险程度X;步骤4:信息发送方以1

η的概率选择具有最大对应Q值的动作p
i
,以η的概率随机选择其他的安全策略,根据得到的动作组合P
(k)
调整无线通信安全策略,将数据包发送至信息接收方;步骤5:信息接收方收到数据包后,计算当前通信系统的性能评价指标{d
i(k)
}
1≤i≤M
,将性能评价指标反馈至信息发送方;步骤6:信息发送方接收到性能评价指标,通过效益函数f计算效益u
(k)
:u
(k)
=f(d
1(k)
,d
2(k)
,

,d
M(k)
)步骤7:信息发送方评估当前状态动作对的风险程度r
(k)
;步骤8:将四元组χ
(k)
={s
(k)
,P
(k)
,u
(k)
,r
(k)
}存入缓存区C,若缓存区中的数据个数大于等于采样个数B,则从缓存区中随机抽出B条数据{χ
(i)
}
1≤i≤B
,并更新网络V、网络S和网络A的参数ω
(k)
和ψ
(k)
;步骤9:重复步骤2~8,直到通信系统的性能评价指标都满足正常通信要求,即其中1≤i≤M。2.如权利要求1所述一种面向无线通信安全的安全探索强化学习方法,其特征在于所述在步骤1中,所述构建三个具有三层全连接层的神经网络的具体步骤为:无线通信系统中需要传输数据包的总个数为K,每传输一个数据包的时间构成一个时隙,总时隙为{1,2,

,k,

,K};信息发送方调整N种无线通信安全策略应对无线通信中的干扰攻击;统计第i种安全策略p
i
(1≤i≤N)可行的取值个数为L
i
(1≤L
i
≤N),由所有可能的安全策略的组合组成的动作空间集合为T,动作空间集合中的动作个数为通信系统中有M个性能评价指标{d
i
}
1≤i≤M
,其中性能i(1≤i≤M)满足正常通信的条件为信息发送方能够感知J个通信状态信息{o
i
}
1≤i≤J
,;构建三个具有三层全连接层的网络V、网络S和网络A,网络V包含M+J个输入神经元、H个隐藏神经元和L个输出神经元;网络S包含M+J个输入神经元、H个隐藏神经元和1个输出神经元;网络A包含M+J个输入神经元、H个隐藏神经元和L个输出神经元。3.如权利要求2所述一种面向无线通信安全的安全探索强化学习方法,其特征在于所述N种无线通信安全策略包括但不限于跳频、功率控制、编码调制方式;所述M个性能评价指标包括但不限于时延、...

【专利技术属性】
技术研发人员:肖亮牛国航吕泽芳肖奕霖杨和林
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1