隐私保护机器学习预测制造技术

技术编号:34165952 阅读:15 留言:0更新日期:2022-07-17 09:34
方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于向客户端设备提供数字组件。方法能够包括基于客户端设备上的当前用户活动周期,将临时组标识符分配给客户端设备,该标识符从多个不同组中标识包括客户端设备的特定组。生成用于训练生成用户特性的机器学习模型的训练集。从客户端设备接收对数字组件的请求,该请求包括当前分配给客户端设备的临时组标识符、活动特征的子集和基于客户端设备的一个或多个附加特征。机器学习模型生成一个或多个用户特性,基于其选择一个或多个数字组件并将其发送到客户端设备。组件并将其发送到客户端设备。组件并将其发送到客户端设备。

【技术实现步骤摘要】
【国外来华专利技术】隐私保护机器学习预测

技术介绍

[0001]本说明书涉及数据处理和机器学习模型。
[0002]客户端设备能够使用应用(例如,web浏览器、本机应用)来访问内容平台(例如,搜索平台、社交媒体平台或托管内容的另一平台)。内容平台能够在客户端设备上启动的应用内显示可以由一个或多个内容源/平台提供的数字组件(数字内容或数字信息的离散单元,诸如视频剪辑、音频剪辑、多媒体剪辑、图像、文本或另一内容单元)。

技术实现思路

[0003]通常,本说明书中描述的主题的一个创新方面能够体现在包括下述操作的方法中,包括:基于客户端设备上的当前用户活动周期,向客户端设备分配临时组标识符,该临时组标识符从多个不同组中标识包括客户端设备的特定组;为要训练的模型生成训练集,训练集包括(i)基于客户端设备处的当前用户活动周期分配给客户端设备的临时组标识符,(ii)已经被分配临时组标识符的用户的组特征集,以及(iii)由已经被分配临时组标识符的用户执行的用户活动的活动特征集,其中,临时组标识符从多个不同组中标识包括客户端设备的特定组;使用训练集训练模型;从给定客户端设备接收对数字组件的请求,请求至少包括:(i)当前分配给给定客户端设备的临时组标识符,(ii)活动特征集的子集,以及(iii)一个或多个附加特征,其中,一个或多个附加特征基于客户端设备;通过将经训练的模型应用于(i)临时组标识符和(ii)请求中包括的活动特征子集,生成没有在请求中包括的一个或多个用户特性;基于经训练的模型生成的一个或多个用户特性选择一个或多个数字组件;以及向客户端设备发送选择的一个或多个数字组件。
[0004]该方面的其他实现包括对应的装置、系统和计算机程序,被配置为执行在计算机存储设备上编码的方法的方面。这些和其他实现都能够选择性地包括以下特征的一个或多个。
[0005]在一些方面中,组特征集包括:(i)多个统一资源定位器(URL),包括由已经被分配临时组标识符的用户访问的多个URL,(ii)由已经被分配临时组标识符的用户访问的多个URL的表示。在一些方面中,组特征集还可以包括:(i)由已经被分配临时组标识符的用户访问的URL的计数和/或比例,(ii)由已经被分配临时组标识符的用户访问的URL处呈现的数字内容中的模式。
[0006]在一些方面中,组特征集包括一个或多个聚合用户组人口统计,共同表征与临时组标识符相对应的特定组中的用户,而不表征特定组中的任何单独用户。在一些方面中,组特征集包括聚合上下文预测,其中,聚合上下文预测是基于由已经被分配临时组标识符的用户访问的数字内容的预测输出。
[0007]在一些方面中,训练集的每个样本至少包括:(i)已经被分配临时组标识符的用户的匿名标识符,(ii)在用户被分配临时组标识符时用户访问的URL。
[0008]在一些方面中,活动特征集包括:(i)指定对数字组件的请求来源的地理标识符,(ii)提交对数字组件的请求来源的时间。
[0009]能够实现本说明书中描述的主题的特定实施例,以实现以下一个或多个优点。关于用户的人口统计信息对于向用户提供个性化在线体验非常重要,例如,通过提供与用户相关的特定数字组件。通常,用于提供个性化在线体验的数据通过使用第三方cookie(例如,属于与客户端设备正在访问的域不同的域的cookie)聚合,从而允许链接浏览活动和其他行为和/或跨时间、会话和设备识别用户跟踪数据。然而,越来越多的web流量不允许使用第三方cookie,这可能是由于用户的隐私偏好、缺少对第三方cookie的浏览器支持,或者是由于其他退化,从而消除了使用第三方cookie从多个不同来源聚合数据的可能性。为了解决在不使用第三方cookie(或第三方cookie不可用)的情况下聚合来自多个不同来源的数据的问题,能够对机器学习模型进行训练,以预测使用第三方cookie从多个不同来源聚合的信息。正如在本文档中详细讨论的那样,相对于第三方cookie的使用,机器学习模型能够以增加用户隐私的方式进行训练。因此,机器学习模型的使用能够提供与数据访问相关的改进,并为由浏览器阻止第三方cookie引起的数据聚合问题提供解决方案。实现这些方法需要在从真实世界用户获取的数据集上训练机器学习模型。机器学习模型能够学习训练数据集的复杂模式,从而减少关于用户特性的预测错误。这种实现允许基于预测的用户特性(例如,人口统计信息)交付精心选择的数字组件,从而在维护用户隐私的同时改善用户体验。
[0010]本说明书中描述的主题的一个或多个实施例的细节在附图在下面的描述中阐述。从说明书、附图和权利要求书中,主题的其他特征、方面和优点将变得显而易见。
附图说明
[0011]图1是其中分发数字组件的示例环境的框图。
[0012]图2是由用户评估装置实现的示例机器学习模型的框图。
[0013]图3是使用机器学习模型分发数字组件的示例过程的流程图。
[0014]图4是能够用于执行所述操作的示例计算机系统的框图。
具体实施方式
[0015]本文档公开了实现机器学习模型的方法、系统、装置和计算机可读介质,这些模型能够预测使用第三方cookie收集的信息,而不使用第三方cookie,同时维护用户隐私。在一些情况下,机器学习模型的输出能够用于选择数字组件并将其分发给用户,从而提供个性化的在线体验。
[0016]通常,经由客户端设备连接到互联网的用户能够被提供数字组件。在这种情况下,数字组件提供商可能希望基于从多个不同来源(诸如用户的在线活动和用户的浏览历史)聚合的数据提供数字组件。然而,越来越多的用户选择不允许聚合以前收集和使用过的某些信息,并且一些浏览器正在阻止第三方cookie,因此必须在不使用第三方cookie(例如,来自与用户当前查看的网页域不同的域的cookie)的情况下执行数字组件选择。因此,需要一种解决方案来聚合数据,以便在无法使用第三方cookie时能够用于提供个性化在线体验。
[0017]出现了新技术,通过在用户访问特定资源或在资源上执行特定操作(例如,与网页上显示的特定项目交互或将项目添加到虚拟购物车)时将用户分配到用户组,将数字组件
分发给用户。这些用户组通常以使得确保每个用户组包括足够数量的用户的方式创建,这样就无法识别单个用户。用户特征,诸如有关用户的人口统计信息,对于为用户提供个性化在线体验仍然很重要,例如,通过提供与用户相关的特定数字组件。然而,由于此类信息不可用,内容的个性化可能很困难。因此,需要一种解决方案来预测此类用户信息和/或特征。参考图1

4进一步解释这些技术和方法。
[0018]图1是示例环境100的框图,其中,分发数字组件以与电子文档一起呈现。示例环境100包括网络102,诸如局域网(LAN)、广域网(WAN)或其组合。网络102连接内容服务器104、客户端设备106、数字组件服务器108和数字组件分发系统110(也称为组件分发系统(CDS))。
[0019]客户端设备106是能够通过网络102请求和接收资源的电子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:基于客户端设备上的当前用户活动周期,向客户端设备分配临时组标识符,该临时组标识符从多个不同组中标识包括客户端设备的特定组;为要训练的模型生成训练集,训练集包括(i)基于客户端设备处的当前用户活动周期分配给客户端设备的临时组标识符,(ii)已经被分配临时组标识符的用户的组特征集,以及(iii)由已经被分配临时组标识符的用户执行的用户活动的活动特征集,其中,临时组标识符从多个不同组中标识包括客户端设备的特定组;使用训练集训练模型;从给定客户端设备接收对数字组件的请求,请求至少包括:(i)当前分配给给定客户端设备的临时组标识符,(ii)活动特征集的子集,以及(iii)一个或多个附加特征,其中,一个或多个附加特征基于客户端设备;通过将经训练的模型应用于(i)临时组标识符和(ii)请求中包括的活动特征子集,生成没有在请求中包括的一个或多个用户特性;基于经训练的模型生成的一个或多个用户特性选择一个或多个数字组件;以及向客户端设备发送选择的一个或多个数字组件。2.根据权利要求1所述的方法,其中,组特征集包括:(i)多个统一资源定位器(URL),包括由已经被分配临时组标识符的用户访问的多个URL,(ii)由已经被分配临时组标识符的用户访问的多个URL的表示。3.根据权利要求2所述的方法,其中,组特征集还可以包括:(i)由已经被分配临时组标识符的用户访问的URL的计数和/或比例,(ii)由已经被分配临时组标识符的用户访问的URL处呈现的数字内容中的模式。4.根据权利要求1所述的方法,其中,训练集的每个样本至少包括:(i)已经被分配临时组标识符的用户的匿名标识符,(ii)在用户被分配临时组标识符时用户访问的URL。5.根据权利要求1所述的方法,其中,组特征集包括一个或多个聚合用户组人口统计,共同表征与临时组标识符相对应的特定组中的用户,而不表征特定组中的任何单独用户。6.根据权利要求1所述的方法,其中,组特征集包括聚合上下文预测,其中,聚合上下文预测是基于由已经被分配临时组标识符的用户访问的数字内容的预测输出。7.根据权利要求1所述的方法,其中,活动特征集包括:(i)指定对数字组件的请求来源的地理标识符,(ii)提交对数字组件的请求来源的时间。8.一种系统,包括:基于客户端设备上的当前用户活动周期,向客户端设备分配临时组标识符,该临时组标识符从多个不同组中标识包括客户端设备的特定组;为要训练的模型生成训练集,训练集包括(i)基于客户端设备处的当前用户活动周期分配给客户端设备的临时组标识符,(ii)已经被分配临时组标识符的用户的组特征集,以及(iii)由已经被分配临时组标识符的用户执行的用户活动的活动特征集,其中,临时组标识符从多个不同组中标识包括客户端设备的特定组;使用训练集训练模型;从给定客户端设备接收对数字组件的请求,请求至少包括:(i)当前分配给给定客户端设备的临时组标识符,(ii)活动特征集的子集,以及(iii)一个或多个附加特征,其中,一个
或多个附加特征基于客户端设备;通过将经训练的模型应用于(i)临时组标识符和(ii)请求中包括的活动特征子集,生成没有在请求中包括的一个或多个用户特性;基于经训练的模型生成的一个或多个用户特性选择一个或多个数字组件;以及向客户端设备发送选择的一个或多个数字组件。9.根据权利要求8所述的系统,其中,组特征集包括:(i)多个统一资源定位器(URL),包括由已经被分配临时...

【专利技术属性】
技术研发人员:W黄JP加德纳MW道布AE马约罗夫
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1