相同组内跨异类子组的鲁棒模型性能制造技术

技术编号:33720110 阅读:12 留言:0更新日期:2022-06-08 21:11
包括在计算机存储介质上编码的计算机程序的方法、系统和装置,用于减少模型跨具有相似特性的相同用户组内的组和子组的性能差异,以提供数字组件。方法可以包括识别损失函数,损失函数生成表示模型在训练期间寻求优化的性能测量的损失。通过向损失函数添加附加项来修改损失函数。使用修改的损失函数来训练模型。接收包括用户组标识符的对数字组件的请求。模型生成一个或更多个用户特性,一个或更多个数字组件基于一个或更多个用户特性被选择并被发送到用户的客户端设备。择并被发送到用户的客户端设备。择并被发送到用户的客户端设备。

【技术实现步骤摘要】
【国外来华专利技术】相同组内跨异类子组的鲁棒模型性能


[0001]本说明书涉及数据处理和机器学习模型。

技术介绍

[0002]客户端设备能够使用应用(例如,web浏览器、本原应用)来访问内容平台(例如,搜索平台、社交媒体平台或托管内容的另一平台)。内容平台能够在客户端设备上启动的应用内显示可以由一个或更多个内容源/平台提供的数字组件(数字内容或数字信息的离散单元,诸如例如视频剪辑、音频剪辑、多媒体剪辑、图像、文本或另一内容单元)。

技术实现思路

[0003]通常,本说明书中描述的主题的一个创新方面能够体现在包括以下操作的方法中:针对待训练的模型识别损失函数,损失函数生成表示模型在训练期间寻求优化的性能测量的损失;修改损失函数,包括向损失函数添加附加项,所述附加项减少性能测量跨全部由相同用户组标识符表示的不同用户子组的差异,其中,不同用户子组中的每个用户子组具有与不同用户子组当中的其他子组的特性不同的特性;使用修改的损失函数来训练所述模型;从客户端设备接收对数字组件的请求,所述请求包括关于不同用户组中的特定用户组的给定用户组标识符;通过将训练后的模型应用于包括在所述请求中的信息,生成未包括在所述请求中的一个或更多个用户特性;基于由训练后的模型生成的所述一个或更多个用户特性来选择一个或更多个数字组件;以及向客户端设备发送所选择的一个或更多个数字组件。
[0004]该方面的其他实现方式包括被配置为执行在计算机存储设备上编码的方法的各方面的对应装置、系统和计算机程序。这些和其他实现方式能够均可选地包括以下特征中的一个或更多个。
[0005]在一些方面,修改损失函数包括将误差正则化项添加到损失函数。在一些方面,修改损失函数包括将散度最小化项添加到损失函数。
[0006]在一些方面,将误差正则化项添加到损失函数包括将损失方差项添加到损失函数,其中,损失方差函数表征基于某个属性的用户组内的模型的平均损失与模型跨所有用户的平均损失之间的平方差,其中,可以基于不同属性跨用户单独地计算差。
[0007]在一些方面,将误差正则化项添加到损失函数包括将最大加权损失差异项添加到损失函数,其中,最大加权损失差异项是用户组与所有不同用户组中的所有用户中的损失之间的最大加权差,所述方法还包括使用量化每个用户组的重要性的函数。
[0008]在一些方面,将误差正则化项添加到损失函数包括将粗略损失方差项添加到损失函数,其中,粗略损失方差项是以单独的用户属性为条件的第一用户组和第二用户组的损失之间的平方差的平均值。
[0009]在一些方面,将误差正则化项添加到损失函数包括将HSIC正则化项添加到损失函数,其中,HSIC项表征以非参数方式且独立于不同用户组中的用户分布的跨不同用户组的
损失的差异。
[0010]在一些方面,将散度最小化项添加到损失函数包括将互信息项或Kullback

Leibler散度项中的一个添加到损失函数,其中,互信息项表征跨多个用户组的模型预测的分布的相似性,并且其中,Kullback

Leibler散度项表征跨多个用户组的模型预测的分布的差异。
[0011]能够实现本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或更多个。机器学习模型能够被训练以预测用户特征,而不是例如经由第三方cookies从用户收集特定信息,从而尊重用户的隐私问题。然而,实现这样的方法需要在从现实世界用户获取的不平衡数据集上训练机器学习模型,导致相对于不太频繁观察的子组,更频繁观察的子组对模型的参数具有更高程度的影响。这可能导致跨子组的模型性能的相当大的变化。修改机器学习模型的损失函数使得机器学习模型能够学习和区分训练数据集的复杂模式,从而减少关于用户特性的预测中的误差并增加机器学习模型跨子组的预测准确度的一致性。这样的实现允许向用户递送基于预测的用户特性而精细选择的数字组件,从而提高用户体验并维护用户隐私。
[0012]本文描述的主题的实施例能够减少在客户端设备和网络的其余部分之间传输的潜在敏感数据量。例如,在客户端设备发送对数字组件的请求的情况下,其中,用户的组标识符指示较少观察的子组,本文描述的方法能够避免需要发送关于用户的更多信息以便适当地定制提供给用户的内容。由客户端设备提供的关于用户的附加数据的减少降低了向较少观察的子组的用户发送请求的客户端设备的带宽需求。对于由于与敏感带宽需求一致的因素而较少观察的子组,这种降低可能更显著(例如,在本地网络连接性差的情况下,可能更经常地发现较少观察的子组)。此外,通过避免附加信息的传输,可以保护较少观察的子组免受第三方的识别。
[0013]在附图和以下描述中阐述了本说明书中描述的主题的一个或更多个实施例的细节。根据说明书、附图和权利要求书,主题的其他特征、方面和优点将变得清楚。
附图说明
[0014]图1是其中分发数字组件的示例环境的框图。
[0015]图2是由用户评估装置实现的示例机器学习模型的框图。
[0016]图3是使用修改的损失函数分发数字组件的示例过程的流程图。
[0017]图4是能够用于执行所描述的操作的示例计算机系统的框图。
具体实施方式
[0018]本文档公开了用于修改机器学习模型以确保模型性能在相同用户组内跨不同用户子组变化尽可能小的方法、系统、装置和计算机可读介质。
[0019]通常,能够向经由客户端设备连接到互联网的用户提供数字组件。在这样的场景中,数字组件提供者可能希望基于用户的在线活动和用户浏览历史来提供数字组件。然而,越来越多的用户选择不允许收集和使用特定信息,并且,第三方cookie正被一些浏览器阻止和/或弃用,使得必须在不使用第三方cookie(即,来自与被允许访问cookie文件的内容的网页的域不同的域的cookie)的情况下执行数字组件选择。
[0020]已经出现了通过在用户访问特定资源或在资源处执行特定动作(例如,与呈现在网页上的特定项交互或将项添加到虚拟购物车)时将用户分配到用户组来向用户分发数字组件的新技术。这些用户组通常以每个用户组包括足够数量的用户的方式创建,使得不能识别个体用户。关于用户的人口统计信息对于向用户提供个性化在线体验仍然是重要的,例如通过提供与用户相关的特定数字组件。然而,由于此类信息的不可用,可以实现能够预测此类用户信息和/或特性的机器学习模型。
[0021]即使这样的技术和方法是最先进的,机器学习模型仍然会由于不平衡的数据集而受到很大影响。由于用于训练机器学习模型的标准技术(诸如经验风险最小化,其寻求最小化训练数据上的平均损失)关于训练数据集的类别分布是不可知的,因此从这样的数据集学习导致模型性能的劣化。例如,旨在预测用户属性并在不平衡数据集上训练的机器学习模型可能表现不佳,并导致用户的真实属性与模型的预测之间的大量不匹配。
[0022]相比之下,在本文档中解释的技术和方法通过以在预测用户特性时实现高准确度的方式修改损失函数而优于传统技术,从而使得能够使用机器学习模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:针对待训练的模型,识别损失函数,损失函数生成表示所述模型在训练期间寻求优化的性能测量的损失;修改损失函数,包括向所述损失函数添加附加项,所述附加项减少性能测量跨全部由相同用户组标识符表示的不同用户子组的差异,其中,不同用户子组中的每个用户子组具有与不同用户子组中的其他子组的特性不同的特性;使用修改的损失函数来训练所述模型;从客户端设备接收对数字组件的请求,所述请求包括关于不同用户组中的特定用户组的给定用户组标识符;通过将训练后的模型应用于包括在所述请求中的信息,生成未包括在所述请求中的一个或更多个用户特性;基于由训练后的模型生成的所述一个或更多个用户特性来选择一个或更多个数字组件;以及向客户端设备发送所选择的一个或更多个数字组件。2.如权利要求1所述的计算机实现的方法,其中,修改损失函数包括将误差正则化项添加到损失函数。3.如权利要求2所述的计算机实现的方法,其中,将误差正则化项添加到损失函数包括将损失方差项添加到损失函数,其中,损失方差函数表征基于某个属性的模型在用户组内的平均损失与模型跨所有用户的平均损失之间的平方差,并且其中,可以基于不同属性跨用户单独地计算差。4.如权利要求2所述的计算机实现的方法,其中,将误差正则化项添加到损失函数包括将最大加权损失差异项添加到损失函数,其中,最大加权损失差异项是用户组中的损失与所有不同用户组中的所有用户中的损失之间的最大加权差,所述方法还包括使用量化每个用户组的重要性的函数。5.如权利要求2所述的计算机实现的方法,其中,将误差正则化项添加到损失函数包括将粗略损失方差项添加到损失函数,其中,粗略损失方差项是以单独的用户属性为条件的、第一用户组和第二用户组的损失之间的平方差的平均值。6.如权利要求2所述的计算机实现的方法,其中,将误差正则化项添加到损失函数包括将HSIC正则化项添加到损失函数,其中,HSIC项表征以非参数方式且独立于不同用户组中的用户分布的、跨不同用户组的损失的差异。7.如权利要求1所述的计算机实现的方法,其中,修改损失函数包括将散度最小化项添加到损失函数。8.如权利要求7所述的计算机实现的方法,其中,将散度最小化项添加到损失函数包括将互信息项或Kullback

Leibler散度项中的一个添加到损失函数,其中,互信息项表征跨多个用户组的模型预测的分布的相似性,并且其中,Kullback

Leibler散度项表征跨多个用户组的模型预测的分布的差异。9.一种系统,包括:针对待训练的模型,识别损失函数,损失函数生成表示所述模型在训练期间寻求优化的性能测量的损失;
修改损失函数,包括向损失函数添加附加项,附加项减少性能测量跨全部由相同用户组标识符表示的不同用户子组的差异,其中,不同用户子组中的每个用户子组具有与所述不同用户子组中的其他子组的特性不同的特性;使用修改的损失函数来训练所述模型;从客户端设备接收对数字组件的请求,所述请求包括关于不同用户组中的特定用户组的给定用户组标识符;通过将训练后的模型应用于包括在所述请求中的信息,生成未包括在所述请求中的一个或更多个用户特性;基于由训练后的模型生成的所述一个或更多个用户特性来选择一个或更多个数字组件;以及向客户端设备发送所选择的一个或更多个数字组件。10.如权利要求9所述的系统,其中,修改损失函数包括将误差正则化项添加到损失函数。11.如权利要求10所述的系统,其中,将误差正则化项添加到损失函数包括将损失方差项添加到损失函数,其中,损失方差函数表征基于某个属性的模型在用户组内的平均损失与所述模型跨所有用户的平均损失之间的平方差,并且其中,可以基于不同属性跨用户单独地计算差。12.如权利要求10所述的系统,其中,将误差正则化项添加到损失函数包括将最大加权损失差异项添加到损失函数,其中,最大加权损失差异项是用户组...

【专利技术属性】
技术研发人员:JP加德纳W黄
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1