【技术实现步骤摘要】
一种工业系统公开数据保护方法和系统
[0001]本专利技术属于人工智能与数据安全
,特别涉及一种工业系统公开数据保护方法和系统。
技术介绍
[0002]现代工业系统是一种规模庞大的、结构复杂的信息物理融合系统,其中包含着大量的数据信息,例如系统化控制参数、状态估计模型参数、工业系统实时量测数据、用户级终端数据等。以电力系统为例,大量的电力系统相关数据需要面向不同的社会群体进行公开。但另一方面,由于工业系统信息物理融合的特性,工业系统的部分关键数据在其他相关数据公开时面临泄漏或二次泄漏的风险。
[0003]传统的数据保护手段通常包括数据加密和数据脱敏。加密方案一般被用于保护面向特定人员的秘密数据,其高密级和强针对性的特点并不适用于公开数据。因此目前对于公开数据通常采用脱敏方法进行保护,即通过删改一些数据中的敏感信息(例如个人信息、企业运营等隐私信息)或添加一些数据噪声(例如人脸打码)来实现敏感信息的脱离。但是这些方法只能阻止外部环境对数据敏感信息的直接利用,而无法避免一些间接的、二次的技术手段获取数据中隐含的敏感信息。例如,对于工业系统数据中的网络参数,一般认为是不应公开的关键数据,一旦泄漏将可能造成严重后果,然而目前已有一些技术手段可以实现从工业系统公开数据中推断网络参数。此时传统的脱敏方法就会面临两个失效问题:1.如果对原始数据进行删改或盲目加躁,会造成数据损失导致工业系统本身的一些功能如状态估计、潮流计算等产生严重错误;2.如果只隐去系统参数而不对公开数据进行处理,又会面临被推断的风险。
[ ...
【技术保护点】
【技术特征摘要】
1.一种工业系统公开数据保护方法,其特征在于,包括如下步骤:步骤1,以多组列向量的格式获取需保护的工业系统公开数据的多组历史数据{x};步骤2,基于工业系统相关先验知识确定步骤1中选取的公开数据的生成机理模型及对应的隐含关键参数;步骤3,基于自编码器构建用于生成步骤1中选取的公开数据的伪数据的生成网络G,并根据步骤2获取的生成机理模型和隐含关键参数的数学特性,确定生成网络G中编码器层的激活函数及部分网络结构参数设置,然后输入步骤1获取的数据集{x}训练该自编码器,直至解码器层输出原始数据的重建结果,且满足训练终止条件;步骤4,根据步骤2获取的先验知识选取概率分布p(z
′
)生成伪编码z
′
,然后基于对抗网络训练框架,以步骤3中由真实数据输入生成网络G编码层所得真实编码z为负样本、伪编码z
′
为正样本训练判别网络D,并同步训练生成网络G以使真实编码z的概率分布更接近预定义的分布p(z
′
);步骤5,在生成网络G和判别网络D训练结束后,使用生成网络G产生足量伪数据集{x
′
},然后以混杂比例γ将伪数据加入真实数据集,获得加噪处理后的公开数据集;步骤6,以安全分级策略将不同密级数据集向对应对象进行公开。2.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤1中,需保护的工业系统公开数据是指工业系统中待公开的低密级数据,该类数据受一部分数学模型的约束,且存在可能使得攻击者基于这部分模型或数据获取一些不可公开的高密级数据。3.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤1中,所述多组历史数据{x}是指取该公开数据一段时间内的多组数据断面,每组数据以n维列向量形式储存,从而形成的用于模型训练的原始数据集。4.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤2中,数据的生成机理模型是指根据产生公开数据的物理模型及相应物理约束建立的数学模型,决定了数据的结构和数学性质,能够用做构建伪数据生成器的先验知识;对应的隐含关键参数是指数学模型中与数据有直接关系的,存在被非法获取可能的一些高密级工业系统参数。5.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤3具体包括:步骤3.1,根据生成机理模型确定自编码器网络激活函数f
a
;步骤3.2,基于隐含关键参数数学特性设置自编码器网络结构参数{α},并设置网络训练参数{β},选取网络损失函数f
l
;步骤3.3,将原始数据集{x}={x1,x2,...,x
m
}输入生成网络G进行训练,直至样本的总误差值小于设置的阈值或达到最大训练次数,同时对网络训练参数{β}进行调整已获取更优的训练结果,其中m是原始数据的组数。6.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤4具体包括:步骤4.1,基于公开数据的生成机理,选取伪编码概率分布p(z
′
)...
【专利技术属性】
技术研发人员:周亚东,胡博文,刘烃,吴江,管晓宏,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。