当前位置: 首页 > 专利查询>中南大学专利>正文

面向差分隐私保护的随机森林算法制造技术

技术编号:20242764 阅读:25 留言:0更新日期:2019-01-29 23:27
本发明专利技术公开了一种面向差分隐私保护的随机森林算法,属于机器学习和隐私保护领域,包括:步骤一、建立提供ε‑差分隐私保护的随机森林;步骤二、利用提供ε‑差分隐私保护的随机森林对测试集进行分类,输出测试集中所有样本的分类结果。本发明专利技术提出了一种面向差分隐私保护的随机森林算法,通过在随机森林中加入差分隐私保护机制,可以在分类时保护数据的隐私信息,并且对分类准确率造成较小影响;通过使用基尼指数作为分裂准则、CART分类树作为随机森林中的单棵决策树,既能够处理离散属性,又能处理连续属性,并且消除了信息增益准则对可取值数目较多的特征有所偏好和信息增益率准则对可取值数目较少的特征有所偏好的影响。

【技术实现步骤摘要】
面向差分隐私保护的随机森林算法
本专利技术属于机器学习和隐私保护领域,涉及一种面向差分隐私保护的随机森林算法。
技术介绍
随着信息技术的迅猛发展以及大数据时代的到来,信息技术广泛应用于各行各业,医疗系统、社交网络、电子商务系统、位置服务和教育系统都收集了海量的用户数据。与此同时,数据的发布、共享与分析的需求日益增多,这些数据中包含的潜在的个人隐私信息会随着数据的共享和发布而被泄露出去。虽然删除数据的标识符属性(如ID号)或者隐藏数据集中的敏感属性(如姓名、住址)能够在一定程度上保护个人隐私,但一些攻击案例表明,保护个人隐私远远不止那么简单,还需要阻止敏感属性值与特定的实体或个人关联起来,以防止由非敏感属性信息推测出个人的真实身份。针对隐私泄露问题,Dwork[1]等在2006年首先提出一种严格的、可证明的隐私保护模型——差分隐私保护技术。差分隐私作为一种新的隐私定义,与传统的隐私保护方法相比,有其独特的优势。第一,差分隐私保护模型假设攻击者拥有最大背景知识,在这一假设下,差分隐私保护能应对各种新型攻击,无需考虑攻击者所拥有的任何可能的背景知识;第二,它有着坚实的数学基础,对隐私保护有本文档来自技高网...

【技术保护点】
1.一种面向差分隐私保护的随机森林算法,其特征在于,包括以下步骤:步骤一、建立提供ε‑差分隐私保护的随机森林;步骤二、利用提供ε‑差分隐私保护的随机森林对测试集进行分类,输出测试集中所有样本的分类结果。

【技术特征摘要】
1.一种面向差分隐私保护的随机森林算法,其特征在于,包括以下步骤:步骤一、建立提供ε-差分隐私保护的随机森林;步骤二、利用提供ε-差分隐私保护的随机森林对测试集进行分类,输出测试集中所有样本的分类结果。2.根据权利要求1所述面向差分隐私保护的随机森林算法,其特征在于,步骤一中,所述建立提供ε-差分隐私保护的随机森林,具体为:1.1)获取数据集:若数据集中已经区分训练集D和测试集Test,则执行下一步;否则,采用十折交叉验证得到训练集D和测试集Test;1.2)数据预处理:对缺失数据进行删除,记录每个特征及其标签(离散/连续),形成特征集F和特征集标签Flag;1.3)设置隐私预算B,决策树的数量T,每棵树的最大深度d,每个节点选择的特征个数m,其中(向上取整,即不小于自己的最小整数),|F|为特征集F中包含的特征数量;1.4)确定随机森林中的决策树类型、分裂准则、打分函数q(Di,A)和打分函数的全局敏感度Δq;1.5)建立提供ε-差分隐私保护的随机森林:输入:训练数据集D,特征集F,特征集标签Flag,隐私预算B,决策树的数量T,每棵树的最大深度d,每个节点选择的特征个数m;停止条件:节点上的全部样本分类一致,或者达到最大深度d;输出:提供ε-差分隐私保护的随机森林。3.根据权利要求2所述面向差分隐私保护的随机森林算法,其特征在于,所述步骤1.4)中,采用的决策树类型是CART分类树,分裂准则是基尼指数,打分函数是基尼指数,全局敏感度是2。4.根据权利要求2所述面向差分隐私保护的随机森林算法,其特征在于,所述步骤1.5)中,建立提供ε-差分隐私保护的随机森林的算法程序为:(1)(2)(3)fort=1toT;1)使用自助采样法从D中选取大小为|D|的训练集Di;...

【专利技术属性】
技术研发人员:李远航陈先来安莹刘莉
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1