一种工业系统公开数据保护方法和系统技术方案

技术编号:32578681 阅读:17 留言:0更新日期:2022-03-09 17:08
本发明专利技术公开了一种工业系统公开数据保护方法和系统,包括:工业系统公开数据的整理和选取;基于原始公开数据集训练伪数据生成器;基于原始公开数据集和对抗生成网络训练数据判别器;基于加噪策略设计针对不同密级对象的公开数据分级保护方法,并基于该方法实现公开数据不同密级对象的平等发放及后续针对高密级对象的内容恢复;本发明专利技术实现简单、计算复杂度低,通过模型的前期训练有效减少后期模型使用时的计算资源开销。本发明专利技术实现了在公开数据的同时可阻止未受信第三方通过推断反演等手段获取更高密级信息,使得被公开数据中隐含的关键信息不被泄漏,且通过差异化的分级保护方法保证了受信方对真实数据内容的完整获取。法保证了受信方对真实数据内容的完整获取。法保证了受信方对真实数据内容的完整获取。

【技术实现步骤摘要】
一种工业系统公开数据保护方法和系统


[0001]本专利技术属于人工智能与数据安全
,特别涉及一种工业系统公开数据保护方法和系统。

技术介绍

[0002]现代工业系统是一种规模庞大的、结构复杂的信息物理融合系统,其中包含着大量的数据信息,例如系统化控制参数、状态估计模型参数、工业系统实时量测数据、用户级终端数据等。以电力系统为例,大量的电力系统相关数据需要面向不同的社会群体进行公开。但另一方面,由于工业系统信息物理融合的特性,工业系统的部分关键数据在其他相关数据公开时面临泄漏或二次泄漏的风险。
[0003]传统的数据保护手段通常包括数据加密和数据脱敏。加密方案一般被用于保护面向特定人员的秘密数据,其高密级和强针对性的特点并不适用于公开数据。因此目前对于公开数据通常采用脱敏方法进行保护,即通过删改一些数据中的敏感信息(例如个人信息、企业运营等隐私信息)或添加一些数据噪声(例如人脸打码)来实现敏感信息的脱离。但是这些方法只能阻止外部环境对数据敏感信息的直接利用,而无法避免一些间接的、二次的技术手段获取数据中隐含的敏感信息。例如,对于工业系统数据中的网络参数,一般认为是不应公开的关键数据,一旦泄漏将可能造成严重后果,然而目前已有一些技术手段可以实现从工业系统公开数据中推断网络参数。此时传统的脱敏方法就会面临两个失效问题:1.如果对原始数据进行删改或盲目加躁,会造成数据损失导致工业系统本身的一些功能如状态估计、潮流计算等产生严重错误;2.如果只隐去系统参数而不对公开数据进行处理,又会面临被推断的风险。
[0004]因此,需要新的数据保护方法,在确保不影响数据正常用途的同时,能够具备一定的反推断、反泄漏能力。

技术实现思路

[0005]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种工业系统公开数据保护方法和系统,结合对抗自编码器算法,使用原始公开数据训练一组对抗网络中的生成器和判别器。生成器产生与真实数据格式相同内容相似的“伪数据”,判别器用于受信方“剔除”伪数据。面向低密级对象,公开加入“伪数据”噪声的数据集,使工业系统关键参数免于被推断的风险;面向高密级受信方,则给予判别器对加噪的公开数据集进行去噪处理,保证了工业系统相关数据在特定用途的正常利用,实现了公开数据分级保护的目的。其优点在于:相比于脱敏方法,其加躁策略是基于规则的(生成网络产生的);应用于工业系统数据,可以通过加入先验信息提高“噪声”与真实数据的相似程度,且该程度可控。本专利技术通过基于深度学习训练的生成规则实现了可控的、可逆的数据加噪方法,不仅保证了工业系统公开数据的安全性,也确保了公开数据的可用性,具有数据易获取、模型训练简单、覆盖用户广、后期部署易,系统运行计算消耗低等优点,使得本申请与传统的方法和系统相比,具有
明显优势。
[0006]为了实现上述目的,本专利技术采用的技术方案是:
[0007]一种工业系统公开数据保护方法,其特征在于,包括:
[0008]步骤1,以多组列向量的格式获取需保护的工业系统公开数据的多组历史数据{x};
[0009]步骤2,基于工业系统相关先验知识确定步骤1中选取的公开数据的生成机理模型及对应的隐含关键参数;
[0010]步骤3,基于自编码器构建用于生成步骤1中选取的公开数据的伪数据的生成网络G,并根据步骤2获取的生成机理模型和隐含关键参数的数学特性,确定生成网络G中编码器层的激活函数及部分网络结构参数设置,然后输入步骤1获取的数据集{x}训练该自编码器,直至解码器层输出原始数据的重建结果,且满足训练终止条件。具体地:
[0011]步骤3.1,根据生成机理模型确定合适的自编码器网络激活函数f
a

[0012]步骤3.2,基于隐含关键参数数学特性设置自编码器网络结构参数{α},并设置网络训练参数{β},选取适当的网络损失函数f
l

[0013]步骤3.3,将原始数据集{x1,x2,...,x
m
}输入自编码器网络G进行训练,直至样本的总误差值小于设置的阈值或达到最大训练次数,同时对网络训练参数{β}进行调整已获取更优的训练结果,其中m是原始数据的组数;
[0014]步骤4,根据步骤2获取的先验知识选取适当的概率分布p(z

)生成伪编码z

,然后基于对抗网络训练框架,以步骤3中由真实数据输入生成网络G编码层所得真实编码z为负样本、伪编码z

为正样本训练判别网络D,并同步训练生成网络G以使真实编码z的概率分布更接近预定义的分布p(z

)。具体地:
[0015]步骤4.1,基于公开数据的生成机理,选取适当的伪编码概率分布p(z

);
[0016]步骤4.2,通过采样在概率分布p(z

)上生成足量的伪编码向量集{z

};
[0017]步骤4.3,构建判别网络D,设置网络的结构参数{α
D
}和训练参数{β
D
},以伪编码向量集{z

}为正样本,以步骤3训练所得生成网络G的编码层输出的真实数据的编码集{z}为负样本,训练判别网络D,直至总误差值小于设置的阈值或达到最大训练次数;
[0018]步骤4.4,在步骤4.3中训练判别网络D的同时,基于与判别网络训练误差相关的损失函数f
GD
同步训练生成网络G的网络参数,以使生成网络编码器层输出更接近伪编码的真实数据编码;
[0019]步骤5,在步骤3、4中生成网络G和判别网络D训练结束后,使用生成网络G的产生足量伪数据集{x

},然后以混杂比例γ将伪数据加入真实数据集,获得加噪处理后的公开数据集。具体地:
[0020]步骤5.1,在概率分布p(z

)上重新采样生成足量的伪编码{z

};
[0021]步骤5.2,将伪编码集{z

}输入训练完成的生成网络G的解码层,输出伪数据集{x

};
[0022]步骤5.3,设混杂比例为γ,则将γm组伪数据加入真实数据集,获得加噪处理后的公开数据集;
[0023]步骤6,以安全分级策略将不同密级数据集向对应对象进行公开。具体地:
[0024]步骤6.1,将步骤5中加噪处理后的公开数据集向低密级对象进行直接公开;
[0025]步骤6.2,将步骤4中训练完成的判别网络D的网络模型部署于高密级对象的数据接收端,并将加噪处理后的公开数据集进行公开;
[0026]步骤6.3,使用判别器D对公开数据集做去噪处理,从而获得面向高密级对象的完整真实数据集。
[0027]进一步,本专利技术中需保护的工业系统公开数据是指工业系统中待公开的低密级数据如电力系统中的发电、用电、输电、电价部分相关数据等。具体的,需保护的数据是指该类数据受一部分数学模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工业系统公开数据保护方法,其特征在于,包括如下步骤:步骤1,以多组列向量的格式获取需保护的工业系统公开数据的多组历史数据{x};步骤2,基于工业系统相关先验知识确定步骤1中选取的公开数据的生成机理模型及对应的隐含关键参数;步骤3,基于自编码器构建用于生成步骤1中选取的公开数据的伪数据的生成网络G,并根据步骤2获取的生成机理模型和隐含关键参数的数学特性,确定生成网络G中编码器层的激活函数及部分网络结构参数设置,然后输入步骤1获取的数据集{x}训练该自编码器,直至解码器层输出原始数据的重建结果,且满足训练终止条件;步骤4,根据步骤2获取的先验知识选取概率分布p(z

)生成伪编码z

,然后基于对抗网络训练框架,以步骤3中由真实数据输入生成网络G编码层所得真实编码z为负样本、伪编码z

为正样本训练判别网络D,并同步训练生成网络G以使真实编码z的概率分布更接近预定义的分布p(z

);步骤5,在生成网络G和判别网络D训练结束后,使用生成网络G产生足量伪数据集{x

},然后以混杂比例γ将伪数据加入真实数据集,获得加噪处理后的公开数据集;步骤6,以安全分级策略将不同密级数据集向对应对象进行公开。2.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤1中,需保护的工业系统公开数据是指工业系统中待公开的低密级数据,该类数据受一部分数学模型的约束,且存在可能使得攻击者基于这部分模型或数据获取一些不可公开的高密级数据。3.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤1中,所述多组历史数据{x}是指取该公开数据一段时间内的多组数据断面,每组数据以n维列向量形式储存,从而形成的用于模型训练的原始数据集。4.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤2中,数据的生成机理模型是指根据产生公开数据的物理模型及相应物理约束建立的数学模型,决定了数据的结构和数学性质,能够用做构建伪数据生成器的先验知识;对应的隐含关键参数是指数学模型中与数据有直接关系的,存在被非法获取可能的一些高密级工业系统参数。5.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤3具体包括:步骤3.1,根据生成机理模型确定自编码器网络激活函数f
a
;步骤3.2,基于隐含关键参数数学特性设置自编码器网络结构参数{α},并设置网络训练参数{β},选取网络损失函数f
l
;步骤3.3,将原始数据集{x}={x1,x2,...,x
m
}输入生成网络G进行训练,直至样本的总误差值小于设置的阈值或达到最大训练次数,同时对网络训练参数{β}进行调整已获取更优的训练结果,其中m是原始数据的组数。6.根据权利要求1所述工业系统公开数据保护方法,其特征在于,所述步骤4具体包括:步骤4.1,基于公开数据的生成机理,选取伪编码概率分布p(z

)...

【专利技术属性】
技术研发人员:周亚东胡博文刘烃吴江管晓宏
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1