一种基于电网数据采集的数据脱敏方法及系统技术方案

技术编号:29758233 阅读:39 留言:0更新日期:2021-08-20 21:11
本发明专利技术涉及一种基于电网数据采集的数据脱敏方法和系统,其方法包括:获取多维电力数据并识别出其中的敏感数据;根据每种敏感数据的各个数据项的频数绘制频数直方图,并根据其拟合第一分布曲线;利用训练完成的生成式对抗神经网络,生成与第一分布曲线的分布距离低于阈值的第二分布曲线;根据所述第二分布曲线和拉普拉斯噪声,返回多维数据的外部请求中的敏感数据。本发明专利技术通过生成式对抗神经网络动态生成敏感数据的近似分布,再结合拉普拉斯噪声实现了不同敏感度数据的脱敏,满足了不同数据应用场景的需求。

【技术实现步骤摘要】
一种基于电网数据采集的数据脱敏方法及系统
本专利技术属于电力数据处理领域,具体涉及基于电网数据采集的数据脱敏方法及系统。
技术介绍
目前,由国家电网内部兴建的大数据平台存储大量电力营销数据、电力调度数据、个人用电信息等敏感数据。这些数据涉及到个人隐私和公司机密,数据在产生、传输、存储、处理以及使用等各环节且缺乏有效的处理机制,存在隐私泄露的隐患,用户隐私信息的泄露和国家电网内部敏感数据的泄露,直接造成国家电网声誉和经济的双重损失。另一方面,大量的电力数据需要挖掘分析,过于封锁屏藏数据无疑是对大数据平台的浪费,如何在信息便捷传递共享的基础上,对数据进行合理的处理,使数据隐私保护和数据挖掘分析达成合理的平衡点,也是当下需要重点解决的问题。传统的数据脱敏或隐私保护方法通常利用正则匹配建立相关的规则对隐私数据进行匹配,然后采用相同或相近的方式对涉及隐私的数据进行脱敏。随着电网智能化和测量精度的不断提高,传统依赖于专家的领域知识去制定的正则匹配规则已无法满足多维度、多种数据类型的数据脱敏需求。而如果脱敏方法固定,也容易被高算力的破解,导致本文档来自技高网...

【技术保护点】
1.一种基于电网数据采集的数据脱敏方法,其特征在于,包括:/n获取多维电力数据并识别出其中的敏感数据;/n根据每种敏感数据的各个数据项的频数绘制频数直方图,并根据其拟合第一分布曲线;/n利用训练完成的生成式对抗神经网络,生成与第一分布曲线的分布距离低于阈值的第二分布曲线;/n根据所述第二分布曲线和拉普拉斯噪声,返回多维数据的外部请求中的敏感数据。/n

【技术特征摘要】
1.一种基于电网数据采集的数据脱敏方法,其特征在于,包括:
获取多维电力数据并识别出其中的敏感数据;
根据每种敏感数据的各个数据项的频数绘制频数直方图,并根据其拟合第一分布曲线;
利用训练完成的生成式对抗神经网络,生成与第一分布曲线的分布距离低于阈值的第二分布曲线;
根据所述第二分布曲线和拉普拉斯噪声,返回多维数据的外部请求中的敏感数据。


2.根据权利要求1所述的一种基于电网数据采集的数据脱敏方法,其特征在于,所述获取多维电力数据并识别出其中的敏感数据包括如下步骤:
根据每种敏感数据的正则表达式识别多维电力数据中的敏感数据;
利用自然语言处理模型自动识别多维电力数据中的敏感数据。


3.根据权利要求1所述的一种基于电网数据采集的数据脱敏方法,其特征在于,所述生成式对抗神经网络通过如下步骤训练:
获取多种敏感数据的第一分布曲线,并根据其建立训练集;
构建生成网络,所述生成网络根据训练集生成第二分布曲线;
构建判别网络,所述判别网络判断第二分布曲线来自训练集的概率;
利用第二分布曲线与第一分布曲线的分布距离确定优化函数;
根据所述优化函数优化生成式对抗神经网络,直至所述成式对抗神经网络的误差低于阈值。


4.根据权利要求3所述的一种基于电网数据采集的数据脱敏方法,其特征在于,所述优化函数为:


其中表示对括号内的表达式求期望,x~pdata(x)表示训练集,z~pz(z)表示第二分
布曲线的集合,x、y、z分别表示第一曲线、第一分布曲线与第二曲线的分布距离、第二曲线;D(x|y)表示第二分布曲线来自训练集的概率,D(G(Z|y))表示Z来自训练集的概率。


5.根据权利要求1所述的基于电网数据采集的数据脱...

【专利技术属性】
技术研发人员:吴天音陈恩泽向路萍陈君
申请(专利权)人:武汉中原电子信息有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1