【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
1、近年来,许多公司和组织已经开始收集用户数据。这种数据有时被用于训练执行各种功能的机器学习(ml)模型。随着最近ml模型使用的增加以及其使用方式的多样化,在训练ml模型中使用所收集到的用户数据已经变得非常普遍。然而,收集、存储和/或使用用户数据需要遵守许多隐私法规和道德准则。对于在训练可能容易受到恶意攻击的机器学习模型中使用所收集到的用户数据也是如此。
2、为了确保保持机密性,一些公司使用开发的机制从所收集到的用户数据中移除个人身份信息(pii)。然而,当所收集到的用户数据包括文本时,在文本中可能包括pii以外的信息,这些信息可能是私有的和/或能够用于访问用户的身份或者其他私有信息。例如,用户输入的文本可以包括位置识别信息。然而,检测和移除这样的私有信息通常具有挑战性并且耗时。对于可能包括大型数据集和/或需要人工标记的标记训练数据而言尤其如此。
3、一些当前使用的ml模型将隐私机制并入到ml模型的训练和/或操作中,使得输出符合隐私要求。然而,将隐私并入到ml模型内可能导致模型更大并且更复杂。此外,由
...【技术保护点】
1.一种数据处理系统,包括:
2.根据权利要求1所述的数据处理系统,其中,所述指令还使得所述处理器使得所述数据处理系统执行以下功能:
3.根据权利要求2所述的数据处理系统,其中,所述泄漏阈值是与所述合成隐私保护训练数据中的隐私数据的可接受的量相关联的参数。
4.根据任一前述权利要求所述的数据处理系统,其中,所述指令还使得所述处理器使得所述数据处理系统执行以下功能:
5.根据权利要求4所述的数据处理系统,其中,生成所述样本数据包括从所述标记训练数据中的一个或多个数据点中采样一个或多个隐私保护词语。
6.根据任一
...【技术特征摘要】
【国外来华专利技术】
1.一种数据处理系统,包括:
2.根据权利要求1所述的数据处理系统,其中,所述指令还使得所述处理器使得所述数据处理系统执行以下功能:
3.根据权利要求2所述的数据处理系统,其中,所述泄漏阈值是与所述合成隐私保护训练数据中的隐私数据的可接受的量相关联的参数。
4.根据任一前述权利要求所述的数据处理系统,其中,所述指令还使得所述处理器使得所述数据处理系统执行以下功能:
5.根据权利要求4所述的数据处理系统,其中,生成所述样本数据包括从所述标记训练数据中的一个或多个数据点中采样一个或多个隐私保护词语。
6.根据任一前述权利要求所述的数据处理系统,其中,所述隐私参数包括一个或多个差分隐私参数。
7.根据任一前述权利要求所述的数据处理系统,其中,所述合成数据生成ml模型是生成式对抗网络(gan)模型。
8.根据任一前述权利要求所述的数据处理系...
【专利技术属性】
技术研发人员:C·L·拉泰尔扎,G·库马尔,D·B·莱维坦,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。