【技术实现步骤摘要】
一种面向无线通信安全的安全探索强化学习方法
[0001]本专利技术涉及无线通信的安全,属于现代无线通信安全领域,尤其是涉及一种面向无线通信安全的安全探索强化学习方法。
技术介绍
[0002]随着无线通信技术的飞速发展,例如无人机视频图传、语音通话和无线体域网等,无线通信已经和人们的生活息息相关。然而,无线通信由于其开放性,导致在通信过程中容易遭受干扰和窃听等攻击,严重威胁通信系统安全的隐私和安全。无线通信系统中通常利用跳频、功率控制等技术应对非法攻击,以提高通信系统的安全性。
[0003]强化学习在未知环境中通过“试错”的方式学习,无需预知干扰等攻击策略或信道状态等网络参数,在无线通信安全领域应用广泛。如中国专利CN112291495B提出一种基于强化学习的无线视频低时延抗干扰传输方法,使用一种改进的深度强化学习算法,将玻尔兹曼分布与DQN算法进行结合,动态优化传输信道、发射功率、编码调制方式以抵抗干扰攻击;中国专利CN113079167A提出一种基于深度强化学习的车联网入侵检测方法及系统,使用深度确定性策略梯度算法建立基于流量数据的入侵检测模型;中国专利CN113225794A提出一种基于深度强化学习的全双工认知通信功率控制方法,直接使用DQN算法去优化次级用户发射机的功率控制策略。
[0004]C.Dai等人[C.Dai,L.Xiao,X.Wan and Y.Chen,"Reinforcement learning with safe exploration for network securit ...
【技术保护点】
【技术特征摘要】
1.一种面向无线通信安全的安全探索强化学习方法,其特征在于包括以下步骤:步骤1:构建三个具有三层全连接层的神经网络:网络V、网络S和网络A,初始化参数;步骤2:第k时隙,信息发送方接收上一时隙通信系统的性能评价指标并通过感知计算获得通信状态信息,构建系统当前状态s
(k)
;步骤3:信息发送方将状态s
(k)
分别作为网络V、网络S和网络A的输入,网络S和网络A的输出共同构成状态动作对的风险程度X;步骤4:信息发送方以1
‑
η的概率选择具有最大对应Q值的动作p
i
,以η的概率随机选择其他的安全策略,根据得到的动作组合P
(k)
调整无线通信安全策略,将数据包发送至信息接收方;步骤5:信息接收方收到数据包后,计算当前通信系统的性能评价指标{d
i(k)
}
1≤i≤M
,将性能评价指标反馈至信息发送方;步骤6:信息发送方接收到性能评价指标,通过效益函数f计算效益u
(k)
:u
(k)
=f(d
1(k)
,d
2(k)
,
…
,d
M(k)
)步骤7:信息发送方评估当前状态动作对的风险程度r
(k)
;步骤8:将四元组χ
(k)
={s
(k)
,P
(k)
,u
(k)
,r
(k)
}存入缓存区C,若缓存区中的数据个数大于等于采样个数B,则从缓存区中随机抽出B条数据{χ
(i)
}
1≤i≤B
,并更新网络V、网络S和网络A的参数ω
(k)
和ψ
(k)
;步骤9:重复步骤2~8,直到通信系统的性能评价指标都满足正常通信要求,即其中1≤i≤M。2.如权利要求1所述一种面向无线通信安全的安全探索强化学习方法,其特征在于所述在步骤1中,所述构建三个具有三层全连接层的神经网络的具体步骤为:无线通信系统中需要传输数据包的总个数为K,每传输一个数据包的时间构成一个时隙,总时隙为{1,2,
…
,k,
…
,K};信息发送方调整N种无线通信安全策略应对无线通信中的干扰攻击;统计第i种安全策略p
i
(1≤i≤N)可行的取值个数为L
i
(1≤L
i
≤N),由所有可能的安全策略的组合组成的动作空间集合为T,动作空间集合中的动作个数为通信系统中有M个性能评价指标{d
i
}
1≤i≤M
,其中性能i(1≤i≤M)满足正常通信的条件为信息发送方能够感知J个通信状态信息{o
i
}
1≤i≤J
,;构建三个具有三层全连接层的网络V、网络S和网络A,网络V包含M+J个输入神经元、H个隐藏神经元和L个输出神经元;网络S包含M+J个输入神经元、H个隐藏神经元和1个输出神经元;网络A包含M+J个输入神经元、H个隐藏神经元和L个输出神经元。3.如权利要求2所述一种面向无线通信安全的安全探索强化学习方法,其特征在于所述N种无线通信安全策略包括但不限于跳频、功率控制、编码调制方式;所述M个性能评价指标包括但不限于时延、...
【专利技术属性】
技术研发人员:肖亮,牛国航,吕泽芳,肖奕霖,杨和林,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。