一种对结构化数据和半结构化数据结合的隐私保护方法技术

技术编号：20944759 阅读：15 留言：0更新日期：2019-04-24 02:30

本发明专利技术公开了一种对结构化数据和半结构化数据结合的隐私保护方法，包括以下步骤：S1：收集原始数据，形成原始数据集D；并对原始数据进行分类，将原始数据分类成结构化数据和半结构化数据；所述的结构化数据包括数据库；所述的半结构化数据包括json文件；S2：将半结构化数据转化成结构化数据；S3：将S2中转化后的结构化数据使用差分隐私保护算法；S4：公布修改之后满足差分隐私保护算法的结构化数据。本发明专利技术实现了对结构化和半结构化相结合的数据的ζ‑差分隐私保护，能更好的适应当下时代的发展趋势，既能满足对隐私的保护，又能满足数据挖掘者的要求，数据的可用性也不会降低太多。

A Privacy Protection Method for Combining Structured Data with Semi-Structured Data

The invention discloses a privacy protection method combining structured data with semi-structured data, which includes the following steps: S1: collecting original data to form original data set D; classifying original data into structured data and semi-structured data; the structured data includes database; and the semi-structured data includes JSON files; S2: Converting semi-structured data into structured data; S3: Using differential privacy protection algorithm to convert structured data in S2; S4: Publishing structured data that meets differential privacy protection algorithm after modification. The invention realizes_differential privacy protection for structured and semi-structured data, can better adapt to the development trend of the current era, can not only meet the protection of privacy, but also meet the requirements of data miners, and the availability of data will not reduce too much.

全部详细技术资料下载

【技术实现步骤摘要】
一种对结构化数据和半结构化数据结合的隐私保护方法
本专利技术属于信息安全领域，更具体地，涉及一种对结构化数据和半结构化数据结合的隐私保护方法。
技术介绍
随着电子科技的不断发展，大量的数据以电子的形式存储，网络技术也在不断的进步。近几年，数据挖掘技术逐渐成为热门，在挖掘中，个人的隐私数据更容易泄露。隐私的保护成为了制约数据挖掘更进一步发展的瓶颈之一。随着时代的发展，结构化的数据已经渐渐不能满足日益增长的数据规模，大量的非结构化数据和半结构数据出现在人们的视野中，非结构化的数据主要包括，图片，声音，视频等，而半结构化数据介于结构化数据和半结构化数据之间存在一定的结构，存在一定的结构，但是结构并不是固定的，相比结构化数据更灵活，相比非结构化数据更容易进行数据的处理。目前流行的隐私保护算法主要包括k-匿名算法(将需要发布的数据的标识符隐去，对准标识符概化)和差分隐私保护算法(对将要发布的数据或者将要进行的查询添加干扰，达到保护隐私的目的)。目前的隐私保护算法主要用于结构化数据，很少将隐私保护算法应用在两种数据格式相结合的情况下，出现了灵活性不足的问题。
技术实现思路
为解决现有的技术缺陷，本专利技术公开了一种新的对结构化数据和半结构化数据结合的隐私保护方法。本专利技术实现了对结构化和半结构化相结合的数据的ζ-差分隐私保护，能更好的适应当下时代的发展趋势，既能满足对隐私的保护，又能满足数据挖掘者的要求，数据的可用性也不会降低太多。为解决上述技术问题，本专利技术的技术方案如下：一种对结构化数据和半结构化数据结合的隐私保护方法，包括以下步骤：S1：收集原始数据，形成原始数...

【技术保护点】
1.一种对结构化数据和半结构化数据结合的隐私保护方法，其特征在于，包括以下步骤：S1：收集原始数据，形成原始数据集D；并对原始数据进行分类，将原始数据分类成结构化数据和半结构化数据；所述的结构化数据包括数据库；所述的半结构化数据包括json文件；S2：将半结构化数据转化成结构化数据；S3：将S2中转化后的结构化数据使用差分隐私保护算法；S4：公布修改之后满足差分隐私保护算法的结构化数据，达到保护隐私的目的。

【技术特征摘要】
1.一种对结构化数据和半结构化数据结合的隐私保护方法，其特征在于，包括以下步骤：S1：收集原始数据，形成原始数据集D；并对原始数据进行分类，将原始数据分类成结构化数据和半结构化数据；所述的结构化数据包括数据库；所述的半结构化数据包括json文件；S2：将半结构化数据转化成结构化数据；S3：将S2中转化后的结构化数据使用差分隐私保护算法；S4：公布修改之后满足差分隐私保护算法的结构化数据，达到保护隐私的目的。2.根据权利要求1所述的隐私保护方法，其特征在于，所述的S3包括以下内容：S3.1：泛化原始数据集D中的每一个数据；S3.2：初始化原始数据集D中每一个特性v从叶子节点到根结点的特征值；S3.3：对原始数据集D的每一个数据更新对应的隐私预算：所述的ζ’表示更新后的隐私预算；所述的ζ表示更新前的隐私预算；所述的表示数据表中的第n个特性v；所述的h表示需要特征化的特性v的数量；S3.4：根据决定选择哪一个值进行分割；所述的exp()表示以e为底的指数函数；所述的u()表示得分函数；...

【专利技术属性】
技术研发人员：杜依宁，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人