【技术实现步骤摘要】
一种基于深度强化学习的信息物理系统安全控制方法
[0001]本专利技术属于信息安全
,具体涉及一种基于深度强化学习的信息物理系统安全控制方法。
技术介绍
[0002]信息物理系统融合并发展了现有的通信、无线网络、分布式、人工智能等技术,构建了物理空间与信息空间中人、机、物、环境、信息等要素的相互映射、适时交互、高效协同,成为集计算、通信与控制于一体的新一代智能系统。作为智能制造的核心,信息物理系统的发展已受到世界各国的重视。近年来,网络攻击事件频发,对国家安全、经济发展、基础设施安全、人民生命财产造成了极大威胁,这使得如何保证信息物理系统的安全成为亟待解决的重大问题。虽然信息物理系统安全问题的研究不断取得突破,但是仅仅依靠单一学科知识,如控制学科、计算机科学学科或者网络信息安全学科技术进行信息物理系统安全设计的不足日益凸显。针对网络攻击,现有方法仍然存在着信息物理系统模型复杂、建模困难、安全控制策略设计困难、安全控制策略下控制性能不佳等问题,因此,如何融合多学科技术手段解决信息物理系统的安全问题已成为亟待解决的重要问题 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述方法具体包括以下步骤:步骤一、建立执行器虚假数据注入攻击下的信息物理系统模型;步骤二、将步骤一中建立的执行器虚假数据注入攻击下的信息物理系统模型描述为马尔科夫决策过程;步骤三、搭建深度神经网络,基于搭建的深度神经网络为马尔科夫决策过程输出决策策略。2.根据权利要求1所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述步骤一的具体过程为:步骤一一、理想状态下,信息物理系统模型的动态方程为:其中,表示信息物理系统的状态向量,表示实数域,n
x
表示状态向量x的维度,表示待设计的控制信号,n
u
表示控制信号u的维度,为x的一阶导数,f(
·
)表示广义函数映射;步骤一二、基于欧拉方法对步骤一一中的信息物理系统模型进行离散化,得到离散化信息物理系统模型:x(k+1)=(f(x(k),u(k)))Δt+x(k)其中,x(k)代表离散化信息物理系统在k时刻的状态向量,u(k)代表k时刻的控制信号,Δt表示采样周期,x(k+1)代表离散化信息物理系统在k+1时刻的状态向量;步骤一三、不考虑外部扰动、不确定性以及网络攻击行为的参考模型的动态方程为:x
r
(k+1)=g(x
r
(k),u
r
(k))其中,表示参考模型在k时刻的状态向量,u
r
(k)表示参考模型在k时刻的控制器,x
r
(k+1)表示参考模型在k+1时刻的状态向量,g(
·
)表示广义函数映射;步骤一四、将存在虚假数据注入攻击情形下离散化信息物理系统模型的控制信号描述为:其中,表示受攻击后在k时刻的控制信号,u
a
(k)表示在k时刻的虚假数据注入攻击信号,Γ表示虚假数据注入攻击的攻击分布矩阵;步骤一五、将参考模型的状态向量作为离散化信息物理系统模型产生控制信号的部分输入,考虑受攻击后的控制信号,则步骤一二中的离散化信息物理系统模型被重新描述为执行器虚假数据注入攻击下的信息物理系统模型:其中,表示将参考模型的状态向量x
r
(k)作为离散化信息物理系统模型产生控制信号的部分输入时,离散化信息物理系统模型在k时刻的状态向量,表示将参考模型的状态向量x
r
(k+1)作为离散化信息物理系统模型产生控制信号的部分输入时,离散化信息物理系统模型在k+1时刻的状态向量。
3.根据权利要求2所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述攻击分布矩阵Γ是对角矩阵,对角元素的取值均为0或1,若第i个执行器受到攻击,则攻击分布矩阵Γ的第i个对角元素取值为1,否则,第i个对角元素取值为0。4.根据权利要求3所述的一种基于深度强化学习的信息物理系统安全控制方法,其特征在于,所述虚假数据...
【专利技术属性】
技术研发人员:吴承伟,柴庆杰,刘健行,孙光辉,吴立刚,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。