用于保护隐私的机器学习模型的输入数据筛选方法及系统技术方案

技术编号：40901311 阅读：21 留言：0更新日期：2024-04-18 11:19

本公开提供一种用于保护隐私的机器学习模型的输入数据筛选方法及系统。所述方法包括：获取初始数据和预设机器学习模型；将初始数据分类为敏感数据和公开数据，将敏感数据存储第一数据集中，公开数据存储第二数据集中；确定第一数据集中允许公开的敏感数据并记为第一数据；将第一数据从第一数据集存储第二数据集中；将第二数据集输入机器学习模型，获取输出精度期望值；判断输出精度期望值是否不小于预设阈值；若是，则确定第二数据集为机器学习模型的实际输入数据源；否则返回确定第一数据集中允许公开的敏感数据并记为第一数据的步骤。该方法能够在保证机器学习模型的误差在允许范围内的同时，保障最多的敏感数据不会被披露。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及机器学习，尤其涉及一种用于保护隐私的机器学习模型的输入数据筛选方法及系统、电子设备。

技术介绍

1、在人力资源管理、招聘、医疗和个人保健等领域应用的人工智能程序，大部分都应用了机器学习模型，这些机器学习模型经常依赖敏感的用户数据进行推理，因此需要完整的个人数据，包括很多敏感的个人信息，比如姓名，身份证，个人住址，健康信息等，这带来了重大的隐私泄露风险。

2、常用解决隐私的技术包括差分隐私（differential privacy，dp），主要目的是保护训练数据中的信息，但这可能会使用户信息在系统部署过程中容易受到攻击，而且用户必须公开其完整的数据集作为机器学习模型的输入，即使并非所有数据都是准确预测所必需的。这种做法不仅给用户带来了重大的隐私风险，而且还给公司带来了巨大的负担，需要大量的人力来验证所披露信息的准确性。

技术实现思路

1、有鉴于此，本公开实施例提供了一种用于保护隐私的机器学习模型的输入数据筛选方法及系统，能够解决用户在使用机器学习模型时，必须公开其完整的...

【技术保护点】

1.一种用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，包括：

2.根据权利要求1所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，确定所述第一数据集中允许公开的敏感数据，并记为第一数据，包括：

3.根据权利要求2所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，所述扰动系数集为：

4.根据权利要求1所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，所述预设阈值为；

5.根据权利要求1所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，在所述确定所述第二数据集中的公开数据和第一...

【技术特征摘要】

1.一种用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，包括：

3.根据权利要求2所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，所述扰动系数集为：

4.根据权利要求1所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，所述预设阈值为；

5.根据权利要求1所述的用于保护隐私的机器学习模型的输入数据筛选方法，其特征在于，在所述确定所...

【专利技术属性】
技术研发人员：张磊，龙真真，王斌，刘德生，
申请(专利权)人：中科晶锐苏州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人