当前位置: 首页 > 专利查询>中山大学专利>正文

一种对结构化数据和半结构化数据结合的隐私保护方法技术

技术编号:20944759 阅读:15 留言:0更新日期:2019-04-24 02:30
本发明专利技术公开了一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据。本发明专利技术实现了对结构化和半结构化相结合的数据的ζ‑差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。

A Privacy Protection Method for Combining Structured Data with Semi-Structured Data

The invention discloses a privacy protection method combining structured data with semi-structured data, which includes the following steps: S1: collecting original data to form original data set D; classifying original data into structured data and semi-structured data; the structured data includes database; and the semi-structured data includes JSON files; S2: Converting semi-structured data into structured data; S3: Using differential privacy protection algorithm to convert structured data in S2; S4: Publishing structured data that meets differential privacy protection algorithm after modification. The invention realizes_differential privacy protection for structured and semi-structured data, can better adapt to the development trend of the current era, can not only meet the protection of privacy, but also meet the requirements of data miners, and the availability of data will not reduce too much.

【技术实现步骤摘要】
一种对结构化数据和半结构化数据结合的隐私保护方法
本专利技术属于信息安全领域,更具体地,涉及一种对结构化数据和半结构化数据结合的隐私保护方法。
技术介绍
随着电子科技的不断发展,大量的数据以电子的形式存储,网络技术也在不断的进步。近几年,数据挖掘技术逐渐成为热门,在挖掘中,个人的隐私数据更容易泄露。隐私的保护成为了制约数据挖掘更进一步发展的瓶颈之一。随着时代的发展,结构化的数据已经渐渐不能满足日益增长的数据规模,大量的非结构化数据和半结构数据出现在人们的视野中,非结构化的数据主要包括,图片,声音,视频等,而半结构化数据介于结构化数据和半结构化数据之间存在一定的结构,存在一定的结构,但是结构并不是固定的,相比结构化数据更灵活,相比非结构化数据更容易进行数据的处理。目前流行的隐私保护算法主要包括k-匿名算法(将需要发布的数据的标识符隐去,对准标识符概化)和差分隐私保护算法(对将要发布的数据或者将要进行的查询添加干扰,达到保护隐私的目的)。目前的隐私保护算法主要用于结构化数据,很少将隐私保护算法应用在两种数据格式相结合的情况下,出现了灵活性不足的问题。
技术实现思路
为解决现有的技术缺陷,本专利技术公开了一种新的对结构化数据和半结构化数据结合的隐私保护方法。本专利技术实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。为解决上述技术问题,本专利技术的技术方案如下:一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。本专利技术中,首先需要对数据进行分类处理,需要将数据分类成结构化形式存储的数据和半结构化形式存储的数据。对于结构化存储的数据,可以直接使用保护算法进行保护,并对外公开,不会对其中用户的隐私信息造成危害。而对于半结构化形式存储的数据,因为在半结构化数据中,结构与数据相融,难以纳入现有的各种描述框架,整体上具有动态的结构模式,所以没有隐私保护算法能够直接作用在半结构化数据中,需要对半结构化数据进行转化。在一种优选的方案中,所述的S3包括以下内容:S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;S3.3:对原始数据集D的每一个数据更新对应的隐私预算:所述的ζ’表示更新后的隐私预算,所述的ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;S3.4:根据决定选择哪一个值进行分割;所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;所述的Δu通过下式进行表达:其中,所述的E和E'表示只差一个数据的兄弟表;S3.5:对更新后的数据集进行循环,直至完成整个数据集的特征化;S3.6:对每一组加上噪声所述的Lap()表示拉普拉斯分布函数,所述的C表示特征化之后的特性v。在一种优选的方案中,S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,所述的UCuti表示数量为h的特性特征化之后的并集;S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;S3.5.4:更新每个特性v的得分函数u()。在一种优选的方案中,所述的S2包括以下内容:通过将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作。本优选方案中,主要通过python中json模块和pymysql模块,其中json模块的主要作用是实现json对象和python对象之间的相互转化,将json对象转化成python对象使用函数json.dump()和json.dumps()。将python对象转化成json对象使用函数json.load()和json.loads()。Pymysql模块是在python中操作mysql的一个模块,通过该模块,可以操作mysql中的数据库,实现数据库的增删查改,将上述两个模块相结合,即可实现对半结构化数据转化成结构化数据。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护,能更好的适应当下时代的发展趋势,既能满足对隐私的保护,又能满足数据挖掘者的要求,数据的可用性也不会降低太多。附图说明图1为本实施例的流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。如图1所示,一种对结构化数据和半结构化数据结合的隐私保护方法,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;结构化数据包括数据库;半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;json文件的转化过程:通过使用python中json模块和pymysql模块,将json文件转化成python对象,在利用pymysql模块将python对象存储相应的数据库中,实现对半结构化数据转化成结构化数据的操作;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S3.1:泛化原始数据集D中的每一个数据,泛化是指用笼统的变量代替具体的变量,比如Engineer,Lawyer泛化成Professional,34泛化成(18-65);S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;S3.3:对原始数据集D的每一个数据更新对应的隐私预算:ζ’表示更新后的隐私预算,ζ表示更新前的隐私预算,隐私预算ζ越小则说明保护的程度越大;表示数据表中的第n个特性v;h表示需要特征化的特性v的数量;S3.4:根据决定选择哪一个值进行分割;exp()表示以e为底的指数函数;u()表示得分函数;Δu通过下式进行表达:其中,E和E'表示只差一个数据的兄弟表;S3.5:对更新后的数据集进行以下循环,直至完成整个数据集的特征化:S3.5.1:根据每一个特性v的概率选择概率最大的特性v,执行S3.5.2;S3.5.2:将S3.5.1选择的特性v进行特征化处理,并更新UCuti,UCuti表示数量为h的特性特征化之后的并集;S3.5.3:根据S3.5.2之后的每一个特性v的概率选择概率最大的特性v,执行S3.5.4;S本文档来自技高网...

【技术保护点】
1.一种对结构化数据和半结构化数据结合的隐私保护方法,其特征在于,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。

【技术特征摘要】
1.一种对结构化数据和半结构化数据结合的隐私保护方法,其特征在于,包括以下步骤:S1:收集原始数据,形成原始数据集D;并对原始数据进行分类,将原始数据分类成结构化数据和半结构化数据;所述的结构化数据包括数据库;所述的半结构化数据包括json文件;S2:将半结构化数据转化成结构化数据;S3:将S2中转化后的结构化数据使用差分隐私保护算法;S4:公布修改之后满足差分隐私保护算法的结构化数据,达到保护隐私的目的。2.根据权利要求1所述的隐私保护方法,其特征在于,所述的S3包括以下内容:S3.1:泛化原始数据集D中的每一个数据;S3.2:初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值;S3.3:对原始数据集D的每一个数据更新对应的隐私预算:所述的ζ’表示更新后的隐私预算;所述的ζ表示更新前的隐私预算;所述的表示数据表中的第n个特性v;所述的h表示需要特征化的特性v的数量;S3.4:根据决定选择哪一个值进行分割;所述的exp()表示以e为底的指数函数;所述的u()表示得分函数;...

【专利技术属性】
技术研发人员:杜依宁
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1