面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质技术方案

技术编号:36874894 阅读:7 留言:0更新日期:2023-03-15 20:24
本发明专利技术涉及信息物理系统安全技术领域,公开了一种面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质,通过调整传感器和攻击者双方的策略,找到在DoS攻击下信息物理系统中攻击者和传感器的最佳选择策略。本发明专利技术基于系统测量序列和先验模型,利用卡尔曼滤波方法递归更新,根据系统遭受攻击的情况实时更新估计,以保证估计的准确性和有效性。通过在每一时间步利用线性规划方法求得传感器和攻击者的纳什均衡策略,使得二者能够实时做出最优选择。本发明专利技术拟从可靠信道和不可靠信道两个角度对强化学习算法开展研究,分别提出基于安全状态估计的强化学习算法。通过算法可以得到攻防双方的纳什均衡策略,以指导传感器和攻击者的决策选择。决策选择。决策选择。

【技术实现步骤摘要】
面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质


[0001]本专利技术涉及信息物理系统安全
,具体为一种面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质。

技术介绍

[0002]信息物理系统(cyber

physical systems,CPSs)实现了计算资源与物理资源的紧密融合,以执行实时传感、远程控制和信息交互等功能。其中,无线传感器以其使用灵活性、节约功耗和易于扩展的特性在关键的基础设施控制、航天航空系统、军事系统和其他领域得到了广泛的应用。然而,传感器测量数据通过无线网络传输,在提高通信效率的同时,也带来了一定的安全隐患,容易遭受拒绝服务(Denial of Service,DoS)攻击、欺骗攻击和注入攻击等恶意网络攻击。其中,DoS攻击主要通过干扰信道来阻止远程估计器正确地接收和处理传感器数据,是最常见、也是最易实施的网络攻击之一,严重威胁着信息物理系统安全。
[0003]在信息物理系统与攻击者的博弈中,传感器的目标是最小化状态估计误差的同时最大化攻击代价,而攻击者的目标则恰好相反。由于攻击者的收益来自于传感器的损失,将传感器和攻击者的对抗视作双人零和确定性博弈问题。由于信息物理系统的状态需要实时感知和更新,现有文献中的静态博弈方法不能准确研究其安全状态估计问题。
[0004]此外,在信息物理系统中,传感器和攻击者如何提高决策效率和准确率也是研究的重点之一。强化学习方法作为人工智能的重要分支之一,引起了人们的广泛关注,其主要研究智能体如何通过与未知环境的交互来学习最优策略。不少文献中,强化学习方法被用来解决信息物理系统中攻击者和系统防御者之间的博弈问题。然而,由于信息物理系统中存在信号退化、信道衰落和信道拥塞等多种原因,在这样的不可靠信道下都可能导致数据包丢失。

技术实现思路

[0005]为了克服上述现有技术存在的缺陷,本专利技术的目的在于提供一种面向DoS攻击下CPSs的安全状态博弈方法、系统、终端及介质,以解决现有技术中信息物理系统的安全性能低以及决策效率和准确率低的技术问题。
[0006]本专利技术是通过以下技术方案来实现:
[0007]一种面向DoS攻击下CPSs的安全状态博弈方法,包括如下步骤:
[0008]步骤1,建立DoS攻击下无线信道远程安全估计模型;
[0009]步骤2,在DoS攻击下无线信道远程安全估计模型内输入系统参数,并根据卡尔曼滤波方程递归地更新系统状态向量的最小均方误差估计量和估计误差协方差;
[0010]步骤3,在DoS攻击下无线信道远程安全估计模型内判断传感器与DoS攻击以ε的概率选择动作,并以1

的概率选择最优动作;
[0011]步骤4,在DoS攻击下无线信道远程安全估计模型内判断不同信道来计算当前状态
和动作组合下的即时奖励以及下一个时刻状态;
[0012]步骤5,在DoS攻击下无线信道远程安全估计模型内更新Q价值函数,进而更新Q价值矩阵;
[0013]步骤6,计算更新的Q价值函数与当前状态的Q价值函数相比较,当更新的Q价值函数值与当前状态的Q价值数值差大于设定阈值η时,返回重新执行步骤3;反之得到收敛的Q价值矩阵和基于纳什均衡下的最优策略,完成面向DoS攻击下CPSs的安全状态博弈。
[0014]优选的,步骤1中,DoS攻击下无线信道远程安全估计模型包括信息物理系统、传感器、信道、远程估计器和攻击者;所述信息物理系统输入传感器测量向量y(k)至传感器,传感器输出最小均方误差估计至信道,信道内包括安全传输信道和不安全传输信道;信道传输传感器的数据至远程估计器内,远程估计器输出远程估计器的系统安全状态,攻击者采用攻击或不攻击方式对信道进行DoS攻击;远程估计器分别反馈信号反馈至传感器和攻击者。
[0015]优选的,步骤2中,在DoS攻击下无线信道远程安全估计模型内输入系统参数,其中系统参数包括:初始化系统的状态、动作、Q价值矩阵、不同动作组合下包丢失的概率ξ
k
、学习率α、折扣因子ρ和探索率ε。
[0016]优选的,步骤2中,根据卡尔曼滤波方程递归地更新系统状态向量的最小均方误差估计量和估计误差协方差P(k),具体方式如下:
[0017]采用局部卡尔曼滤波器来完成状态递归更新系统状态的估计,每一个时间k,系统状态向量x(k)的最小均方误差估计量是根据运行卡尔曼滤波器测量得到的数据,表达式如下:
[0018][0019]相应的估计误差协方差为:
[0020][0021]根据卡尔曼滤波方程,递归地更新和P(k),卡尔曼滤波器的递归更新方程如下:
[0022][0023]P(k|k

1)=h(P(k

1))
[0024]K(k)=P(k|k

1)C
T
[CP(k|k—1)C
T
+R]‑1[0025][0026]P(k)=g(P(k|k

1))
[0027]其中,为状态向量x(k)的最小均方误差,P(k)为相应的估计误差协方差,A,B,C为系数矩阵,h为Lyapunov算子和g为Riccati算子;
[0028]其中Lyapunov算子和g为Riccati算子的计算公式如下:
[0029][0030][0031]其中,A为系数矩阵;Q为过程误差协方差矩阵。
[0032]优选的,步骤3中,传感器的数据发送方式包括两种发送数据方式,其中包括第一发送数据方式表示安全传输;第二发送数据方式表示不安全传输;DoS攻击者的攻击方式包括攻击或者不攻击;其中第二发送数据方式表示对信道进行DoS攻击;第一发送数据方式表示攻击者选择不攻击;其中,传感器和攻击者可以根据探索率ε来选择动作,以ε的概率随机选择动作,以1

ε的概率选择最优动作。
[0033]优选的,步骤4中,判断不同信道来计算当前状态和动作组合下的即时奖励以及下一个时刻状态,其中包括可靠信道下数据包传输和不可靠信道下数据;
[0034]其中可靠信道下数据包传输表达式如下:
[0035][0036]远程估计器的下一个时刻状态见表达式如下:
[0037][0038]在k时刻,系统的即时奖励r
k
表达式如下
[0039][0040]其中不可靠信道下数据包传输表达式如下:
[0041][0042]远程估计器的下一个状态见表达如下:
[0043][0044]在k时刻,系统的即时奖励r
k
表达如下:
[0045][0046]其中,E[P(k)]表示远程估计误差协方差P(k)的平均期望,具体表达式如下:
[0047][0048]其中,ξ
k
表示包丢失的概率,表示卡尔曼滤波收敛到的稳态,P(k)为远程估计误差协方差,h为Lyapunov算子。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向DoS攻击下CPSs的安全状态博弈方法,其特征在于,包括如下步骤:步骤1,建立DoS攻击下无线信道远程安全估计模型;步骤2,在DoS攻击下无线信道远程安全估计模型内输入系统参数,并根据卡尔曼滤波方程递归地更新系统状态向量的最小均方误差估计量和估计误差协方差;步骤3,在DoS攻击下无线信道远程安全估计模型内判断传感器与DoS攻击以ε的概率选择动作,并以1

ε的概率选择最优动作;步骤4,在DoS攻击下无线信道远程安全估计模型内判断不同信道来计算当前状态和动作组合下的即时奖励以及下一个时刻状态;步骤5,在DoS攻击下无线信道远程安全估计模型内更新Q价值函数,进而更新Q价值矩阵;步骤6,计算更新的Q价值函数与当前状态的Q价值函数相比较,当更新的Q价值函数值与当前状态的Q价值数值差大于设定阈值η时,返回重新执行步骤3;反之得到收敛的Q价值矩阵和基于纳什均衡下的最优策略,完成面向DoS攻击下CPSs的安全状态博弈。2.根据权利要求1所述的一种面向DoS攻击下CPSs的安全状态博弈方法,其特征在于,步骤1中,DoS攻击下无线信道远程安全估计模型包括信息物理系统、传感器、信道、远程估计器和攻击者;所述信息物理系统输入传感器测量向量y(k)至传感器,传感器输出最小均方误差估计至信道,信道内包括安全传输信道和不安全传输信道;信道传输传感器的数据至远程估计器内,远程估计器输出远程估计器的系统安全状态攻击者采用攻击或不攻击方式对信道进行DoS攻击;远程估计器分别反馈信号反馈至传感器和攻击者。3.根据权利要求1所述的一种面向DoS攻击下CPSs的安全状态博弈方法,其特征在于,步骤2中,在DoS攻击下无线信道远程安全估计模型内输入系统参数,其中系统参数包括:初始化系统的状态、动作、Q价值矩阵、不同动作组合下包丢失的概率ξ
k
、学习率α、折扣因子ρ和探索率ε。4.根据权利要求1所述的一种面向DoS攻击下CPSs的安全状态博弈方法,其特征在于,步骤2中,根据卡尔曼滤波方程递归地更新系统状态向量的最小均方误差估计量和估计误差协方差P(k),具体方式如下:采用局部卡尔曼滤波器来完成状态递归更新系统状态的估计,每一个时间k,系统状态向量x(k)的最小均方误差估计量是根据运行卡尔曼滤波器测量得到的数据,表达式如下:相应的估计误差协方差为:根据卡尔曼滤波方程,递归地更新和P(k),卡尔曼滤波器的递归更新方程如下:P(k|k

1)=h(P(k

1))
K(k)=P(k|k

1)C
T
[CP(k|k

1)C
T
+R]
‑1P(k)=g(P(k|k

1))其中,为状态向量x(k)的最小均方误差,P(k)为相应的估计误差协方差,A,B,C为系数矩阵,h为Lyapunov算子和g为Riccati算子;其中Lyapunov算子和g为Riccati算子的计算公式如下:其中Lyapunov算子和g为Riccati算子的计算公式如下:其中,A为系数矩阵;Q为过程误差协方差矩阵。5.根据权利要求1所述的一种面向DoS攻击下CPSs的安全状态博弈方法,其特...

【专利技术属性】
技术研发人员:金增旺李倩张淑婷张艳宁
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1