一种分类数据挖掘系统中数据隐私保护方法技术方案

技术编号:11418139 阅读:95 留言:0更新日期:2015-05-06 19:26
本发明专利技术涉及一种分类数据挖掘系统中数据隐私保护方法,将系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,首先,各参与方分别将其隐私数据以密文形式布设在随机数据中,并通过合作计算,分别获得各个属性的信息熵;接着,各参与方通过针对计算过程中计算结果采用加密传输的方式,分别获得各个属性的信息增益;然后,针对各个属性的信息增益进行比较,获得最大信息增益所对应的属性,以该属性为节点进行分裂;最后判断是否满足终止分裂条件,是则结束,否则循环上述方案;上述设计技术方案基于保护隐私的ID3分类模型,采用全同态加密算法的方案,有效实现针对网络分类数据挖掘过程中隐私数据保护。

【技术实现步骤摘要】

本专利技术涉及一种分类数据挖掘系统中数据隐私保护方法
技术介绍
数据挖掘(Data Mining,DM)是从大量的、不完全的、有噪声、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。随着数据挖掘和知识发现技术的发展,数据挖掘和知识发现的研究已经涵盖数据库、人工智能和数理统计三大学科的内容。它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策和支持。由于数据挖掘的诸多优点,它在商业零售、医疗与保险、大数据分析等方面都有较好的应用前景,对数据挖掘技术的研究正成为学术界、商业界和工业界的热点之一。但是,数据挖掘在为人们提供有益知识的同时,也会直接或间接的泄露参与方的数据隐私,给当事人带来经济和其他方面的损失,甚至造成难以估量的影响,这成为数据挖掘不能逃避的问题。因此数据挖掘中的隐私安全问题具有重要意义。根据数据挖掘实现的不同场景,数据挖掘可分为集中式数据挖掘和分布式的数据挖掘。目前对于集中式的数据挖掘,由于它不涉及通信传输和多方参与,目前已经有了比较成熟的隐私保护方案。而在分布式环境中,挖掘环境和实现过程更为复杂,分布式环境中数据挖掘的隐私安全问题主要包括三个方面:(1)保护聚类挖掘参与方的数据隐私;(2)保护关联规则挖掘参与方的数据隐私;(3)保护分类挖掘中的参与方的数据隐私。目前对前两个方面的研究已有不少成果,然而对分类挖掘的隐私保护研究还少有人涉及,分布式环境中的多方参与和准诚信的环境,显然给问题的解决带来了一定的难度,一般采用的策略主要是使用密码学的方法,但仅用密码学的方法是不足够的,仍然需要结合新的技术、方法来保证分类挖掘中各方的隐私数据不被泄露;对于分布式环境来说,分布式环境包括水平分割数据和垂直分割数据两种,在垂直划分的数据集中,同一数据的不同属性分别存储在不同的参与方中;在水平划分的数据集中,数据的所有属性存储在同一个参与方中,不同的参与方存储不同数据的信息。在网络世界里,针对网络中隐私数据的攻击表现为网络恶意入侵,网络恶意入侵的主要过程是发生在分类器生成过程中,如果某个参与方是恶意的,它可能对参与分类挖掘的其他各方进行如下几种攻击:①截获其他参与方的通信数据,分析它们的隐私数据;②利用自己参与计算的便利职务,分析其他各方的隐私数据;③利用自己收到的计算结果,倒推其他参与方的数据隐私等等。
技术实现思路
针对上述技术问题,本专利技术所要解决的技术问题是提供一种基于保护隐私的ID3分类模型,采用全同态加密算法的方案,有效实现针对网络分类数据挖掘过程中隐私数据保护的分类数据挖掘系统中数据隐私保护方法。本专利技术为了解决上述技术问题采用以下技术方案:本专利技术设计了一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,数据隐私保护方法包括如下步骤:步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理数据中各个属性的信息熵;步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息增益;步骤003.针对处理数据中各个属性的信息增益进行比较,获得最大信息增益所对应的属性,将该属性作为最佳分裂属性,以最佳分裂属性为节点进行分裂;步骤004.判断是否满足终止分裂条件,是则结束,否则返回步骤001。作为本专利技术的一种优选技术方案:所述步骤001之前,初始化,针对处理数据中的属性预设目标属性,其余属性为候选属性,表示第i个参与方对应系统中所述处理数据中第l个候选属性中第tl个类别的类别数据,其中,i∈{1,…,I本文档来自技高网
...
一种分类数据挖掘系统中数据隐私保护方法

【技术保护点】
一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布式垂直划分的方式分配给各个参与方,其特征在于,数据隐私保护方法包括如下步骤:步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理数据中各个属性的信息熵;步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息增益;步骤003.针对处理数据中各个属性的信息增益进行比较,获得最大信息增益所对应的属性,将该属性作为最佳分裂属性,以最佳分裂属性为节点进行分裂;步骤004.判断是否满足终止分裂条件,是则结束,否则返回步骤001。

【技术特征摘要】
1.一种分类数据挖掘系统中数据隐私保护方法,其中,系统中处理数据的各个属性按分布
式垂直划分的方式分配给各个参与方,其特征在于,数据隐私保护方法包括如下步骤:
步骤001.首先,各参与方分别将其隐私数据以密文形式,通过随机排序方式分布在其对
应的随机数据中;然后,各参与方根据各自对应的随机数据进行合作计算,分别获得处理
数据中各个属性的信息熵;
步骤002.通过针对计算过程中计算结果采用加密传输的方式,各参与方根据处理数据中
各个属性的信息熵进行合作计算,分别获得处理数据中各个属性的信息...

【专利技术属性】
技术研发人员:任勋益袁武
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1