数据集分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:43537205 阅读:17 留言:0更新日期:2024-12-03 12:20
本申请实施例中提供了一种数据集分类方法、装置、计算机设备和存储介质,所述方法包括:获取数据集中的训练集和测试集;基于所述训练集的样本数据,构建随机森林分类模型,其中,所述随机森林分类模型基于差分隐私保护机制构建;将测试集的样本数据输入已构建的随机森林分类模型,得到测试集所有样本的分类结果。本申请的随机森林分类模型能够降低用户隐私信息的泄露风险。

【技术实现步骤摘要】

本申请涉及数据处理,具体地,涉及一种数据集分类方法、装置、计算机设备和存储介质


技术介绍

1、随着人工智能的发展,科技进入了数字化时代,数据是企业和个人最宝贵的资产,电子商务、医疗系统和社交网络等收集了大量的用户数据,用于用户分析、商业决策等,但是数据发布、共享和分析的过程中,存在着用户个人隐私信息泄露的风险,数据安全得不到保障。数据的隐私保护主要包括两方面,一是针对数据集的保护,二是针对统计信息的保护。针对数据集的隐私处理,并不能解决统计信息的隐私泄露,如删除数据的标志符属性如id、姓名等敏感信息,能够在一定程度上保护个人隐私,但是还不能满足个人信息保护的需求。相关技术中,虽然对用户姓名进行了随机化处理,但是仍然能够通过部分查询记录结合背景知识,定位到具体用户。因此,除了数据标识处理之外,还需要研究统计信息的隐私防护问题。

2、随机森林由于具有较强的可解释性、鲁棒性,应用广泛,是一种重要的数据挖掘方法。然而,随机森林算法本身和相应的统计信息均有可能泄露用户隐私信息,存在着较大风险。


技术实现思

<本文档来自技高网...

【技术保护点】

1.一种数据集分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述训练集的样本数据,构建随机森林分类模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述输入训练集的样本数据的特征集合、标签集合、树的数目、列选取方式、样本选择比例和隐私预算大小,输出包含T棵决策树的树集合,包括:

4.根据权利要求3所述的方法,其特征在于,对于每颗决策树,通过以下表达式对当前决策树的样本集添加Laplace噪声:

5.根据权利要求4所述的方法,其特征在于,所述根据添加分配的隐私预算计算过程获取最佳分裂属性和分裂值,包括:...

【技术特征摘要】

1.一种数据集分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述训练集的样本数据,构建随机森林分类模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述输入训练集的样本数据的特征集合、标签集合、树的数目、列选取方式、样本选择比例和隐私预算大小,输出包含t棵决策树的树集合,包括:

4.根据权利要求3所述的方法,其特征在于,对于每颗决策树,通过以下表达式对当前决策树的样本集添加laplace噪声:

5.根据权利要求4所述的方法,其特征在于,所述根据添加分配的隐私预算计算过程获取最佳分裂属性和分裂值,包括:

6.根据权利要求5所述的方法,其特征在于,在选择最佳分裂属性时,按照百...

【专利技术属性】
技术研发人员:樊春美杨立鹏李雯张智纪宇宣仲硕王思宇
申请(专利权)人:中国铁道科学研究院集团有限公司电子计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1