当前位置: 首页 > 专利查询>苹果公司专利>正文

使用生成式对抗网络进行私有化的机器学习制造技术

技术编号:21892674 阅读:5 留言:0更新日期:2019-08-17 14:48
本发明专利技术题为“使用生成式对抗网络进行私有化的机器学习。”本发明专利技术提供了移动电子设备的一个实施方案,所述移动电子设备包括用于存储指令的非暂态机器可读介质,所述指令致使所述移动电子设备从服务器接收有标签数据集;从所述服务器接收数据单元,所述数据单元的数据类型与所述有标签数据集相同;经由所述移动电子设备上的机器学习模型确定用于所述数据单元的拟议标签,所述机器学习模型用于基于来自所述服务器的所述有标签数据集以及与所述移动电子设备相关联的无标签数据集确定所述数据单元的所述拟议标签;经由隐私算法对所述拟议标签进行编码,以生成所述拟议标签的私有化编码;并且将所述拟议标签的所述私有化编码传输到所述服务器。

Privatized Machine Learning Using Generative Counter-Network

【技术实现步骤摘要】
使用生成式对抗网络进行私有化的机器学习
本公开整体涉及经由私有化数据的机器学习领域。更具体地,本公开涉及一种系统,该系统实现一个或多个隐私机制,以能够使用生成式对抗网络进行私有化的机器学习。
技术介绍
机器学习是人工智能的一种应用,它使复杂的系统能够在无需显式编程的情况下自动学习并改善体验。机器学习模型的准确性和有效性可部分取决于用于训练这些模型的数据。例如,可以使用有标签数据集来训练机器学习分类器,其中分类器将学习识别的数据样本以及辨识样本分类的一个或多个标签被一起提供给分类器。通常,较大的训练数据集导致更准确的分类器。然而,用于准备训练数据集的当前技术可能是费力、耗时且昂贵的,尤其是涉及手动标记数据以生成训练数据集的技术。
技术实现思路
本文描述的实施方案提供了一种技术,用于众包机器学习模型的训练数据的标记,同时维护由众包参与者提供的数据的隐私。客户端设备可用于为将在训练数据集中使用的数据单元生成拟议标签。一个或多个隐私机制用于在将数据传输到服务器时保护用户数据。一个实施方案提供了一种移动电子设备,该移动电子设备包括用于存储指令的非暂态机器可读介质,该指令致使移动电子设备从服务器处接收有标签数据集;从服务器接收数据单元,该数据单元的数据类型与有标签数据集相同;经由移动电子设备上的机器学习模型确定用于数据单元的拟议标签,该机器学习模型用于基于来自服务器的有标签数据集以及与移动电子设备相关联的无标签数据集确定数据单元的拟议标签;经由隐私算法对拟议标签进行编码,以生成拟议标签的私有化编码;并且将拟议标签的私有化编码传输到服务器。一个实施方案提供了数据处理系统,该数据处理系统包括存储指令的存储器设备以及执行存储在该存储器设备上的指令的一个或多个处理器。这些指令致使数据处理系统执行包括将有标签数据集发送到多个移动电子设备集的操作,每个移动电子设备包括第一机器学习模型;将数据单元发送到多个移动电子设备集,该多个电子设备集生成用于数据单元的拟议标签集;接收来自移动电子设备集的数据单元的拟议标签集,对拟议标签集进行编码,以掩蔽拟议标签集中每个拟议标签的单个贡献者;处理拟议标签集,以确定分配给数据单元的标签;并且将数据单元和标签添加到训练集,以用于训练第二机器学习模型。通过附图以及通过以下具体实施方式,本实施方案的其他特征将显而易见。附图说明本公开的实施方案以举例的方式而不是以限制的方式在各个附图的图示中进行说明,在附图中类似的附图标号是指类似的元件。图1A至图1B示出了根据本文描述的实施方案的能够为机器学习模型的训练数据启用众包标记的系统。图2示出了根据一个实施方案的用于从多个客户端设备处接收私有化的众包标签的系统。图3是根据一个实施方案的用于为服务器提供的无标签数据生成私有化拟议标签的系统的框图。图4A至图4B示出了根据实施方案的训练机器学习模型以生成用于无标签数据的拟议标签的系统。图5A至图5C示出了可以在本文描述的实施方案中使用的示例性私有化数据编码,其经由差分隐私实现私有化。图6A至图6B是根据本文描述的实施方案的用于对将传输到服务器的拟议标签进行编码和差分私有化的示例处理流程。图7A至7D是根据实施方案的客户端和服务器算法的多位直方图和计数-均值-草图模型的框图。图8A至图8B示出了根据一个实施方案的在客户端设备上生成拟议标签的逻辑。图9示出了根据一个实施方案的使服务器能够对无标签数据进行众包标记的逻辑。图10示出了根据本文描述的实施方案的客户端设备上的计算架构,其可以用于使用机器学习算法来启用设备上、半监督的训练和推断。图11是根据实施方案的移动设备架构的框图。图12是示出可以结合本公开的实施方案中的一个或多个使用的示例计算系统的框图。具体实施方式本文将参考下面讨论的细节描述各种实施方案和方面。附图将示出各种实施方案。以下说明书和附图为例示性的,并且不应被理解为限制性的。描述了许多具体细节,以提供对各个实施方案的全面理解。然而,在某些实例中,并未描述熟知的或常规的细节,以提供对实施方案的简明论述。在本说明书中提到的“一个实施方案”或“实施方案”或“一些实施方案”是指结合该实施方案所述的特定特征、结构或特性可被包括在至少一个实施方案中。在本说明书中的各个位置出现短语“实施方案”不一定都是指同一个实施方案。应当注意,在不脱离本文描述的实施方案的情况下,流程图或其中描述的操作可能存在变化。例如,操作可以并行、同时或以与所示顺序不同的顺序执行。本公开认识到在本专利技术技术中使用个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。本公开还设想负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本专利技术的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。实施许多监督学习技术的关键障碍是要求在训练服务器上具有有标签数据。有标签数据问题的现有解决方案包括集中训练数据以及利用一个或多个标签手动注释数据。在训练数据是用户数据的情况下,在服务器上维护此类数据可能会丢失用户隐私。另外,手动标记训练数据可能受成本过高限制。本文描述的实施方案使得用于训练数据的标记任务能够被众包到大量客户端设备,使得可以以半监督的方式确定用于训练数据的标签。可以利用存储在客户端设备上的用户数据集来标记训练数据,而无需将用户数据暴露给训练服务器。使用由服务器提供的生成式对抗网络(GAN)和少量有标签数据样本,客户端设备可以基于存储在客户端设备中的用户数据执行半监督学习。然后可以将无标签训练数据单元提供给客户端设备。客户端设备上的已训练模型可以生成由服务器提供的无标签训练数据单元的拟议标签。由客户端设备提供的拟议标签被私有化,以掩蔽拟议标签与提出该标签的用户和/或客户端设备之间的关系。可以在服务器上分析拟议标签集,以确定无标签数据单元最受欢迎的拟议标签。一旦标记了训练数据集中的每个数据单元,则服务器可以使用该训练数据集来训练未训练的机器学习模型或改善预训练模型的准确性。由客户端设备提供的标签可以经由一个或多个私有化机制进行私有化。在一些实施方案中,在将拟议标本文档来自技高网...

【技术保护点】
1.一种移动电子设备,包括:非暂态机器可读介质,所述非暂态机器可读介质用于存储指令;一个或多个处理器,所述一个或多个处理器用于执行存储在所述非暂态机器可读介质上的所述指令,所述指令致使所述移动电子设备:从服务器接收有标签数据集;从所述服务器接收数据单元,所述数据单元的数据类型与所述有标签数据集相同;经由所述移动电子设备上的机器学习模型确定用于所述数据单元的拟议标签,所述机器学习模型用于基于来自所述服务器的所述有标签数据集以及与所述移动电子设备相关联的无标签数据集确定所述数据单元的所述拟议标签;经由隐私算法对所述拟议标签进行编码,以生成所述拟议标签的私有化编码;以及将所述拟议标签的所述私有化编码传输到所述服务器。

【技术特征摘要】
2018.02.08 US 15/892,2461.一种移动电子设备,包括:非暂态机器可读介质,所述非暂态机器可读介质用于存储指令;一个或多个处理器,所述一个或多个处理器用于执行存储在所述非暂态机器可读介质上的所述指令,所述指令致使所述移动电子设备:从服务器接收有标签数据集;从所述服务器接收数据单元,所述数据单元的数据类型与所述有标签数据集相同;经由所述移动电子设备上的机器学习模型确定用于所述数据单元的拟议标签,所述机器学习模型用于基于来自所述服务器的所述有标签数据集以及与所述移动电子设备相关联的无标签数据集确定所述数据单元的所述拟议标签;经由隐私算法对所述拟议标签进行编码,以生成所述拟议标签的私有化编码;以及将所述拟议标签的所述私有化编码传输到所述服务器。2.根据权利要求1所述的移动电子设备,其中所述机器学习模型被包括在安装到所述移动电子设备的系统映像中。3.根据权利要求1所述的移动电子设备,所述移动电子设备从所述服务器接收所述机器学习模型。4.根据权利要求1所述的移动电子设备,其中与所述移动电子设备相关联的所述无标签数据集至少暂时存储在所述移动电子设备上。5.根据权利要求4所述的移动电子设备,其中所述移动电子设备与远程存储服务的账户相关联,并且从所述远程存储服务检索所述无标签数据集的子集。6.根据权利要求1所述的移动电子设备,其中为了确定来自所述服务器的所述数据单元的所述拟议标签,所述机器学习模型致使所述一个或多个处理器:基于来自所述服务器的所述有标签数据集对所述无标签数据集进行群集;将所述数据单元与群集的无标签数据集进行比较;以及基于所述比较确定所述数据单元的所述拟议标签。7.根据权利要求6所述的移动电子设备,所述机器学习模型还致使所述一个或多个处理器:基于来自所述服务器的所述有标签数据集,从所述群集的无标签数据集中生成第一本地有标签数据集;以及经由存储在所述移动电子设备上的机器学习框架基于对所述第一本地有标签数据集与所述数据单元的特征矢量的比较,推断来自所述服务器的所述数据单元的分类评分。8.根据权利要求7所述的移动电子设备,所述机器学习模型还基于与所述移动电子设备相关联的有标签数据集确定来自所述服务器的所述数据单元的所述拟议标签,与所述移动电子设备相关联的所述有标签数据集不同于来自所述服务器的所述有标签数据集。9.根据权利要求1所述的移动电子设备,其中所述机器学习模型是生成式对抗网络的一部分。10.根据权利要求1所述的移动电子设备,其中所述隐私算法致使...

【专利技术属性】
技术研发人员:A·鲍米克A·H·维罗斯R·M·罗杰斯
申请(专利权)人:苹果公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1