一种隐私信息的保护方法和系统技术方案

技术编号:11701589 阅读:82 留言:0更新日期:2015-07-09 01:09
本发明专利技术提供了一种隐私信息的保护方法和系统,包括:根据原始数据获得列数据为属性对的二维矩阵;对二维矩阵进行等距变换,令等距变换的旋转角在预设范围内变化,并得出随旋转角变化的偏转度曲线,偏转度可衡量隐私的保护程度;根据偏转度曲线确定旋转角的最佳取值范围;从最佳取值范围中随机选取旋转角对二维矩阵进行等距变换,以得到等距变换后的待挖掘数据,从而能够在实现隐私信息保护的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始数据集进行聚类分析等同的效果;并且,由于本发明专利技术中对数据集的等距变换是随机的,因此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。

【技术实现步骤摘要】

本专利技术涉及计算机网络
,更具体地说,涉及一种隐私信息的保护方法和 系统。
技术介绍
数据挖掘是指在大量的数据中挖掘出潜在的有用的数据的过程。虽然数据挖掘的 恰当使用会挖掘出切实有用的数据,但是,如果数据挖掘技术被恶意使用的话,就会泄露用 户的隐私信息,对用户的生活产生不良影响,而企业隐私信息的泄露则会严重影响企业的 核心竞争力,因此,隐私信息保护已经成为当前数据挖掘领域十分重要的研宄问题之一。 数据挖掘中通过等距变换在属性之间进行等距变换,实现隐藏敏感属性即隐私 信息的目的。现有的一种保持空间距离不变的基于旋转的数据转换(Rotation-based Transformation,RBT)算法,将原始数据抽象成二维空间中的一个点,通过在二维坐标系上 根据变换矩阵公式旋转角来改变各原始数据的值而不改变各值之间的距离,以此来实现二 维空间中点的转换,获得较好的隐私信息保护效果。 但是,由于上述算法在对原始数据进行等距变换时,需要人工预置转换的偏转度, 该偏转度可衡量隐私的保护程度,但是,由于现有技术中并没有一种通用的规则去量化数 据转换中偏转度为多少时更安全,因此,人工也就无法确定预设何种角度的旋转角更为安 全。
技术实现思路
有鉴于此,本专利技术提供了一种隐私信息的保护方法和系统,以提供一种能够自适 应地在合理的偏转度区间内随机选取等距变换旋转角的方法,以解决现有技术中人工无法 预置更为安全的偏转度的问题。 为实现上述目的,本专利技术提供如下技术方案: -种隐私信息的保护方法,包括: 根据原始数据获得列数据为属性对的二维矩阵; 对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并 得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度; 根据所述偏转度曲线确定所述旋转角的最佳取值范围; 从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等 距变换后的待挖掘数据。 优选的,所述根据原始数据获得列数据为属性对的矩阵的过程,包括: 将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记录、列数据为属 性; 利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范化的二维矩阵; 将所述规范化的二维矩阵中的属性两两配对,以得到列数据为属性对的二维矩 阵。 优选的,将所述规范化的二维矩阵中的属性两两配对之前,包括: 判断所述属性的个数是否为偶数; 若为偶数,将所述属性两两配对; 若为奇数,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属 性两两配对。 优选的,所述旋转角在预设范围内变化是指所述旋转角从0到2 31变化。 优选的,所述根据所述偏转度曲线确定所述旋转角的最佳取值范围的过程,包 括: 求出所述偏转度曲线的最大值以及对应的第一旋转角; 求出所述偏转度曲线的交点的最大值以及对应的第二旋转角; 将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值范围的最小值, 将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最大值。 一种隐私信息的保护系统,包括: 第一模块,用于根据原始数据获得列数据为属性对的二维矩阵; 第二模块,用于对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设 范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程 度; 第三模块,用于根据所述偏转度曲线确定所述旋转角的最佳取值范围; 第四模块,用于从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距 变换,以得到等距变换后的待挖掘数据。 优选的,所述第一模块包括: 第一子模块,用于将原始数据构建为二维矩阵,所述二维矩阵的行数据为数据记 录、列数据为属性; 第二子模块,用于利用规范化模型对所述二维矩阵进行等比例缩放,以得到规范 化的二维矩阵; 第三子模块,用于将所述规范化的二维矩阵中的属性两两配对,以得到列数据为 属性对的二维矩阵。 优选的,所述第三子模块包括: 判断模块,用于判断所述属性的个数是否为偶数,若为偶数,将第一控制指令发送 至配对模块,若为奇数,将第二控制指令发送至配对模块; 配对模块,用于在接收到所述第一控制指令后,将所述属性两两配对,在接收到所 述第二控制指令后,将其中一个所述属性与等距变换后的一个属性进行配对,其他所述属 性两两配对。 优选的,所述第三模块包括: 第一单元,用于求出所述偏转度曲线的最大值以及对应的第一旋转角; 第二单元,用于求出所述偏转度曲线的交点的最大值以及对应的第二旋转角; 第三单元,用于将所述第一旋转角和第二旋转角中的最小值设定为所述最佳取值 范围的最小值,将所述第一旋转角和第二旋转角中的最大值设定为所述最佳取值范围的最 大值。 优选的,所述旋转角在预设范围内变化是指所述旋转角从0到2 31变化。 与现有技术相比,本专利技术所提供的技术方案具有以下优点: 本专利技术所提供的隐私信息的保护方法和系统,根据偏转度曲线确定旋转角的最佳 取值范围后,随机地在最佳取值范围内随机选取等距变换的旋转角,在实现隐私信息保护 的同时能够确保变换后的数据间距离不变,以达到对变换后的数据进行聚类分析与对原始 数据集进行聚类分析等同的效果;并且,由于本专利技术中对数据集的等距变换是随机的,因 此,攻击者不能从转换后的数据集上推导出原始数据,从而增强了隐私信息的安全性。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简当前第1页1 2 本文档来自技高网...

【技术保护点】
一种隐私信息的保护方法,其特征在于,包括:根据原始数据获得列数据为属性对的二维矩阵;对所述二维矩阵进行等距变换,令所述等距变换的旋转角在预设范围内变化,并得出随所述旋转角变化的偏转度曲线,所述偏转度可衡量隐私的保护程度;根据所述偏转度曲线确定所述旋转角的最佳取值范围;从所述最佳取值范围中随机选取旋转角对所述二维矩阵进行等距变换,以得到等距变换后的待挖掘数据。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈岚肖京雷君
申请(专利权)人:中国科学院微电子研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1