为训练机器学习模型生成隐私合成训练数据制造技术

技术编号：41738128 阅读：42 留言：0更新日期：2024-06-19 12:57

一种用于生成训练语言分类器机器学习(ML)模型的合成隐私保护训练数据的方法和系统，包括：接收用于为所述语言分类器ML模型生成所述合成隐私保护训练数据的请求；取回与训练所述语言分类器ML模型相关联的标记训练数据；将所述标记训练数据、一个或多个隐私参数以及与所述标记训练数据相关联的域类型提供给合成数据生成ML模型，所述合成数据生成ML模型被配置为以隐私保护的方式来生成合成训练数据；接收合成隐私保护训练数据作为来自所述合成数据生成ML模型的输出；以及将所述合成隐私保护训练数据提供给所述语言分类器ML模型，以用于训练所述语言分类器ML模型对文本进行分类。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

技术介绍

1、近年来，许多公司和组织已经开始收集用户数据。这种数据有时被用于训练执行各种功能的机器学习(ml)模型。随着最近ml模型使用的增加以及其使用方式的多样化，在训练ml模型中使用所收集到的用户数据已经变得非常普遍。然而，收集、存储和/或使用用户数据需要遵守许多隐私法规和道德准则。对于在训练可能容易受到恶意攻击的机器学习模型中使用所收集到的用户数据也是如此。

2、为了确保保持机密性，一些公司使用开发的机制从所收集到的用户数据中移除个人身份信息(pii)。然而，当所收集到的用户数据包括文本时，在文本中可能包括pii以外的信息，这些信息可能是私有的和/或能够用于访问用户的身份或者其他私有信息。例如，用户输入的文本可以包括位置识别信息。然而，检测和移除这样的私有信息通常具有挑战性并且耗时。对于可能包括大型数据集和/或需要人工标记的标记训练数据而言尤其如此。

3、一些当前使用的ml模型将隐私机制并入到ml模型的训练和/或操作中，使得输出符合隐私要求。然而，将隐私并入到ml模型内可能导致模型更大并且更复杂。此外，由...

【技术保护点】

1.一种数据处理系统，包括：

2.根据权利要求1所述的数据处理系统，其中，所述指令还使得所述处理器使得所述数据处理系统执行以下功能：

3.根据权利要求2所述的数据处理系统，其中，所述泄漏阈值是与所述合成隐私保护训练数据中的隐私数据的可接受的量相关联的参数。

4.根据任一前述权利要求所述的数据处理系统，其中，所述指令还使得所述处理器使得所述数据处理系统执行以下功能：

5.根据权利要求4所述的数据处理系统，其中，生成所述样本数据包括从所述标记训练数据中的一个或多个数据点中采样一个或多个隐私保护词语。

6.根据任一前述权利要求所述的数...

【技术特征摘要】
【国外来华专利技术】

1.一种数据处理系统，包括：

2.根据权利要求1所述的数据处理系统，其中，所述指令还使得所述处理器使得所述数据处理系统执行以下功能：

3.根据权利要求2所述的数据处理系统，其中，所述泄漏阈值是与所述合成隐私保护训练数据中的隐私数据的可接受的量相关联的参数。

4.根据任一前述权利要求所述的数据处理系统，其中，所述指令还使得所述处理器使得所述数据处理系统执行以下功能：

5.根据权利要求4所述的数据处理系统，其中，生成所述样本数据包括从所述标记训练数据中的一个或多个数据点中采样一个或多个隐私保护词语。

6.根据任一前述权利要求所述的数据处理系统，其中，所述隐私参数包括一个或多个差分隐私参数。

7.根据任一前述权利要求所述的数据处理系统，其中，所述合成数据生成ml模型是生成式对抗网络(gan)模型。

8.根据任一前述权利要求所述的数据处理系...

【专利技术属性】
技术研发人员：C·L·拉泰尔扎，G·库马尔，D·B·莱维坦，
申请(专利权)人：微软技术许可有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人