System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种欺骗攻击下基于强化学习和零和博弈的安全控制方法技术_技高网

一种欺骗攻击下基于强化学习和零和博弈的安全控制方法技术

技术编号:41391493 阅读:4 留言:0更新日期:2024-05-20 19:14
本申请提供一种欺骗攻击下基于强化学习和零和博弈的安全控制方法,所述方法包括:建立受到虚假数据注入攻击的非线性系统数学模型;根据非线性系统数学模型设计基于神经网络和动态新息约束机制的状态观测器模型;通过求解两组线性矩阵不等式分别获得状态观测器的增益和神经网络更新的学习率;结合状态观测器设计基于强化学习和零和博弈的控制策略的性能指标;基于性能指标建立演员评论家网络并通过训练网络获得最优控制策略和攻击策略。本申请提出的算法能够在传感器和执行器都受到数据注入攻击的情况下,有效缓解攻击对系统性能的影响,并最终使系统稳定。

【技术实现步骤摘要】

本专利技术涉及一种安全控制设计方法,特别涉及一种欺骗攻击下基于强化学习和零和博弈的安全控制方法


技术介绍

1、近年来,计算机科学、网络通信技术、控制理论的进步极大地促进了信息物理系统的广泛应用。有关于信息物理系统控制问题的研究也取得了丰富成果。

2、但是,信息物理系统运行环境的开放性和互联性,导致其容易受到各种恶意攻击。一旦信息物理系统受到恶意攻击,系统将受到严重破坏,造成重大损失。因此,对信息物理系统安全问题的研究具有重要的重要性和紧迫性。

3、针对信息物理系统的网络攻击大致可分为两种类型:拒绝服务攻击和欺骗攻击。具体来说,拒绝服务攻击攻击的目的是通过恶意占用通信或计算资源,例如占用通道或占用cpu或内存资源,破坏数据的可用性和可交换性。欺骗攻击的目的是通过操纵通信网络上的数据包来破坏数据的完整性和可信性,一些典型的欺骗攻击包括虚假数据注入攻击、重放攻击、零动态攻击等。在实际工程应用中,攻击者可能会同时攻击系统的多个部分,例如传感器和执行器都受到数据注入攻击,并且攻击者通过通信网络注入的攻击信号可能存在一定智能性。这会使防御方很难抵御攻击,导致系统性能下降,甚至发生故障。


技术实现思路

1、本申请提供了一种欺骗攻击下基于强化学习和零和博弈的安全控制方法,解决信息物理系统中传感器和执行器都受到数据注入攻击,导致系统不稳定的问题,本方法在传感器和执行器都受到数据注入攻击的情况下,有效遏制攻击对系统性能的影响,并最终使系统稳定。

2、实现本专利技术目的的技术解决方案为:一种欺骗攻击下基于强化学习和零和博弈的安全控制方法,所述方法包括:

3、步骤1、建立受到虚假数据注入攻击的非线性系统数学模型;

4、步骤2、根据非线性系统数学模型设计基于神经网络和动态新息约束机制的状态观测器模型;

5、步骤3、通过求解两组线性矩阵不等式分别获得状态观测器的增益和神经网络更新的学习率;

6、步骤4、结合状态观测器设计基于强化学习和零和博弈的控制策略的性能指标;

7、步骤5、基于性能指标建立演员评论家网络并通过训练网络获得最优控制策略和攻击策略。

8、进一步地,所述带有虚假数据注入攻击的非线性系统数学模型为:

9、

10、

11、

12、其中,表示分别表示系统的状态向量,量测输出和受到攻击的控制输入信号,未知非线性函数可微,并满足f(0)=0,bk,ck,dk,ek为已知时变矩阵,并满足||bk||≤bm,νk和ωk为未知但有界噪声,分别表示控制输入信号和受到数据注入攻击的量测输出信号;为注入攻击信号,αk表示随机变量,所述噪声序列νk和ωk满足约束条件:

13、

14、进一步地,所述随机变量αk满足伯努利分布,为:为攻击概率,prob{x}表示事件x发生的概率。所述注入攻击信号ρk满足mk为已知的对称正定矩阵。

15、进一步地,所述步骤2中状态观测器模型为:

16、

17、其中,表示系统状态xk的估计值,为神经网络的权重矩阵wf的估计值,t表示矩阵的转置,a为系数矩阵,φf(·)分别表示有界的非线性激活函数,lk为滤波器增益矩阵,为饱和函数。

18、进一步地,所述饱和函数满足:

19、

20、其中,sign()表示符号函数,min{}表示取最小的一项,τ为变量,σk为时变的饱和阈值,σk通过差分方程在每个时刻进行自适应的更新,即

21、进一步地,所述的更新律为:

22、

23、其中,β1,k和β2,k为学习率,为的更新值,所述定义为

24、进一步地,所述状态观测器的增益通过不等式求解获取,所述不等式为;

25、

26、其中矩阵中参数分别为:

27、

28、

29、

30、

31、

32、p2,k+1为预先设定的权重矩阵。f2,k为p2,k的分解矩阵,为正定矩阵,矩阵定义为其中两个对角矩阵和满足条件为需要求解的正标量序列,所述φk为其中表示对角矩阵。

33、进一步地,所述学习率通过以下不等式求解:

34、

35、其中,

36、

37、

38、为预先设定的权重矩阵,{κ1,k,κ2,k}0≤k≤t-1为需要求解的正标量序列,i表示单位矩阵,为矩阵的分解矩阵。

39、进一步地,结合状态观测器设计基于强化学习和零和博弈的控制策略的性能指标,具体包括:

40、将状态观测器的反馈控制器描述为:

41、

42、定义每一个时刻的状态和动作的奖励为其中,q和r都为正定权重矩阵,令强化学习值函数为:

43、

44、其中,γ∈(0,1)为折扣率,表示均值。

45、基于零和博弈、奖励和值函数,设计控制策略的性能指标为:

46、

47、进一步地,所述演员评论家网络包括评论家网络和演员网络,其中,所述评论家网络为

48、

49、其中,xk为评论家网络的输入;wci为输入层到隐层之间的权重矩阵;wco为理想的隐层到输出层之间的权重矩阵,并存在上界φc(·):为非线性激活函数,满足||φc(·)||≤φcm;δc,k为神经网络的近似误差,满足

50、v(xk)的估计值为:

51、

52、其中,矩阵为矩阵wco的估计值。

53、值函数的估计误差为:

54、

55、其中,并且

56、所述评论家网络的损失函数为:

57、

58、所述权重矩阵的估计值通过梯度下降法调整最小化损失函数,

59、

60、其中,βc为学习率。

61、进一步地,所述演员网络为

62、

63、其中,xk为评论家网络的输入;wdi为输入层到隐层之间的权重矩阵;wdo为理想的隐层到输出层之间的权重矩阵;φd(·):为非线性激活函数;δd,k为神经网络的近似误差。

64、估计可以表示为以下形式:

65、

66、其中,为wdo的估计值。

67、的估计误差定义为:

68、

69、防御者网络的损失函数定义为

70、

71、使用梯度下降法调整来最小化损失函数

72、

73、其中,βd为学习率。

74、与现有技术相比,本专利技术的有益效果为:本申请研究的信息物理系统模型是由一般离散时变非线性方程来描述,为了辨识未知非线性系统并降低传感器受到数据注入攻击的影响,本申请设计基于神经网络的具有动态新息约束机制的状态观测器,并推导出观测器增益矩阵,确本文档来自技高网...

【技术保护点】

1.一种欺骗攻击下基于强化学习和零和博弈的安全控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的安全控制方法,其特征在于,所述带有虚假数据注入攻击的非线性系统数学模型为:

3.根据权利要求2所述的安全控制方法,其特征在于,所述随机变量αk满足伯努利分布,为:为攻击概率,Prob{x}表示事件x发生的概率,所述注入攻击信号ρk满足Mk为已知的对称正定矩阵。

4.根据权利要求2所述的安全控制方法,其特征在于,所述步骤2中状态观测器模型为:

5.根据权利要求4所述的安全控制方法,其特征在于,所述饱和函数满足:

6.根据权利要求5所述的安全控制方法,其特征在于,所述的更新律为:

7.根据权利要求6所述的安全控制方法,其特征在于,所述状态观测器的增益通过不等式求解获取,所述不等式为;

8.根据权利要求7所述的安全控制方法,其特征在于,所述学习率通过以下不等式求解:

9.根据权利要求8所述的安全控制方法,其特征在于,结合状态观测器设计基于强化学习和零和博弈的控制策略的性能指标,具体包括

10.根据权利要求9所述的安全控制方法,其特征在于,所述演员评论家网络包括评论家网络和演员网络,其中,

...

【技术特征摘要】

1.一种欺骗攻击下基于强化学习和零和博弈的安全控制方法,其特征在于,所述方法包括:

2.根据权利要求1所述的安全控制方法,其特征在于,所述带有虚假数据注入攻击的非线性系统数学模型为:

3.根据权利要求2所述的安全控制方法,其特征在于,所述随机变量αk满足伯努利分布,为:为攻击概率,prob{x}表示事件x发生的概率,所述注入攻击信号ρk满足mk为已知的对称正定矩阵。

4.根据权利要求2所述的安全控制方法,其特征在于,所述步骤2中状态观测器模型为:

5.根据权利要求4所述的安全控制方法,其特征在于,所述饱...

【专利技术属性】
技术研发人员:戴勇毅凌志马立丰王玮
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1