一种去敏感化数据关联关系的保持方法及系统技术方案

技术编号:23288399 阅读:61 留言:0更新日期:2020-02-08 18:22
本发明专利技术属于大数据技术领域,具体涉及一种大数据中的数据去敏感化。通过数据生成网络模型生成公开数据集替代所述原始数据集供查询,避免了原始数据集中的真实数据被查询访问;同时,公开数据集中的数据与所述原始数据集中的数据的分布保持一致,保留了原始数据集中的数据之间的关联关系。

A method and system of keeping desensitized Data Association

【技术实现步骤摘要】
一种去敏感化数据关联关系的保持方法及系统
本专利技术属于大数据
,具体涉及一种大数据中的数据去敏感化。
技术介绍
随着互联网技术的飞速发展,政府及企业已经积累了大量的敏感信息和数据,而这些数据在很多工作场景中会得到使用。敏感的个人、财务和健康信息,受到多种不同行业和政府数据隐私法规的管制。如果企业无法保持数据隐私,就会面临严重的财务和法律惩罚,同时还会在客户与市场方面蒙受可观的损失。授权公告号CN106599713B,授权公告日2019年4月12日的专利技术专利公开了一种基于大数据的数据库脱敏系统及方法。但是,其仍然避免不了用户对原始隐私数据的访问,存在隐私暴露的风险。
技术实现思路
本专利技术为了解决上述技术问题,提供一种去敏感化数据关联关系的保持方法,其特征在于,包括:步骤a1,建立数据生成网络模型G和数据判断网络模型D;步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述本文档来自技高网...

【技术保护点】
1.一种去敏感化数据关联关系的保持方法,其特征在于,包括:/n步骤a1,建立数据生成网络模型G和数据判断网络模型D;/n步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假,以更新所述数据判断网络模型D的参数;/n步骤a3,将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D,并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G,训练目标为使得所述模拟数据被所述数据判断网络模型D判断...

【技术特征摘要】
1.一种去敏感化数据关联关系的保持方法,其特征在于,包括:
步骤a1,建立数据生成网络模型G和数据判断网络模型D;
步骤a2,将原始数据集中的原始数据和所述数据生成网络模型G基于输入的噪声数据生成的模拟数据输入至所述数据判断网络模型D以训练所述数据判断网络模型D,训练目标为使得输入的所述模拟数据被所述数据判断网络模型D判断为假,以更新所述数据判断网络模型D的参数;
步骤a3,将噪声数据输入至所述数据生成网络模型G后输出模拟数据至所述步骤a2中得到的数据判断网络模型D,并且基于所述数据判断网络模型D的输出结果训练所述数据生成网络模型G,训练目标为使得所述模拟数据被所述数据判断网络模型D判断为真,以更新所述数据生成网络模型G的参数;
步骤a4,基于更新后的数据生成网络模型G和数据判断网络模型D重新执行步骤a2-a3,直到所述数据判断网络模型D对于输入的模拟数据有50%的概率判断为真;
步骤a5,基于步骤a4中的数据生成网络模型生成所述原始数据集对应的公开数据集;
步骤a6,发布所述公开数据集以替代所述原始数据集供查询。


2.根据权利要求1所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据生成网络模型G为残差神经网络。


3.根据权利要求2所述的一种去敏感化数据关联关系的保持方法,其特征在于:
所述数据生成网络模型G的最后一层采用tanh函数...

【专利技术属性】
技术研发人员:叶卫姚一杨许敏孙嘉赛贺琛吴慧金烂聚王云烨史俊潇张明熙陈逍潇张吉吴建伟王臻孟奇段玉帅
申请(专利权)人:国网浙江省电力有限公司信息通信分公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1