用于内容准个性化的低熵浏览历史制造技术

技术编号:29076743 阅读:14 留言:0更新日期:2021-06-30 09:34
本公开提供用于经由诸如数百万或数十亿个设备的大量设备的聚合的浏览历史而进行内容准个性化或匿名化的内容检索的系统和方法。稀疏矩阵可以从所述聚合浏览历史构建,并且在维度上减小,从而减小熵并且为各个设备提供匿名性。可以经由用于表示类似的浏览历史的准个性化聚类来选择相关内容,而不用使各个设备细节暴露于内容提供者。节暴露于内容提供者。节暴露于内容提供者。

【技术实现步骤摘要】
【国外来华专利技术】用于内容准个性化的低熵浏览历史
[0001]相关申请的交叉引用
[0002]本申请要求在2019年8月8日提交的标题为“Low Entropy Browsing History for Content Quasi

Personalization”(用于内容准个性化的低熵浏览历史)的美国专利申请No.16/535,912的优先权,该申请通过引用整体地并入本文。

技术介绍

[0003]在诸如因特网的计算机联网环境中,内容提供者能够提供要插入到由在客户端设备上执行的应用(例如,web浏览器)所处理和渲染的信息资源(例如,网页)中的内容项。
[0004]个性化内容递送通常基于捕获用户和/或设备的标识信息,诸如所述设备的浏览或访问历史。然而,这显著地影响所述设备和用户的私密性和安全性。选择退出和不跟踪策略允许用户对其私密性进行某种控制措施,但是削弱了内容提供者提供相关内容的能力。

技术实现思路

[0005]本文讨论的系统和方法经由诸如数百万或数十亿个设备的大量设备的聚合浏览历史来提供内容准个性化或匿名化内容检索。稀疏矩阵可以从聚合的浏览历史构建,并且在维度上减小,从而减小熵并且为各个设备提供匿名性。可以经由用于表示类似的浏览历史的准个性化聚类来选择相关内容,而不用使各个设备细节暴露于内容提供者。
[0006]在一个方面中,本公开涉及一种用于匿名化内容检索的方法。该方法包括由计算设备的浏览器应用生成基于所述计算设备的浏览历史的简档。该方法还包括由浏览器应用将所述简档编码为n维向量。该方法还包括由浏览器应用根据n维向量计算降维向量。该方法还包括由浏览器应用确定与降维向量相对应的第一聚类。该方法还包括由浏览器应用向内容服务器传送对内容项的请求,该请求包括第一聚类的标识。该方法还包括由浏览器应用从内容服务器接收根据第一聚类的标识所选择的内容项。
[0007]在一些实施方式中,该方法包括通过从浏览历史的日志中标识在预定时间段内对多个地址中的每一个地址的访问次数n来生成基于计算设备的用户的浏览历史的简档。在一些实施方式中,该方法包括生成具有用于表示如下的值的字符串:在预定时间段内对与字符串中的对应位置相关联的地址的一个或多个访问中的每一个访问。
[0008]在一些实施方式中,该方法包括执行n维向量的奇异值分解。在另一个实施方式中,该方法包括从第二计算设备接收奇异值分解的奇异向量集。在再一个实施方式中,该方法包括向第二计算设备传送n维向量,所述第二计算设备基于计算设备的n维向量和至少一个其他计算设备的n维向量的聚合来计算奇异向量集。
[0009]在一些实施方式中,该方法包括从第二计算设备接收多个聚类中的每一个聚类的边界。在另一个实施方式中,该方法包括响应于降维向量在第一聚类的边界内,选择多个聚类中的第一聚类。
[0010]在一些实施方式中,该方法包括:由浏览器应用从第二计算设备接收基于所述计算设备的n维向量和至少一个其他计算设备的n维向量的聚合而确定的神经网络模型的权
重;由浏览器应用的机器学习系统将神经网络模型应用于降维向量,以生成预定聚类集的排名;以及由浏览器应用选择第一聚类作为预定聚类集中的排名最高的聚类。
[0011]在另一方面中,本公开涉及一种用于匿名化内容检索的方法。该方法包括由服务器计算设备从多个客户端计算设备中的每一个接收基于所对应的客户端计算设备的浏览历史的简档,每个简档包括n维向量。该方法还包括由服务器计算设备将多个简档的多个n维向量聚合成矩阵。该方法还包括由服务器计算设备计算所述矩阵的奇异值分解以生成奇异值集。该方法还包括由服务器计算设备向多个客户端计算设备中的每一个客户端计算设备和至少一个内容提供者设备传送所述奇异值集。
[0012]在一些实施方式中,该方法包括由服务器计算设备确定所述矩阵的聚类集中的每个聚类的边界。在另一个实施方式中,该方法包括由服务器计算设备向多个客户端计算设备中的每一个客户端计算设备和至少一个内容提供者设备传送所述矩阵的聚类集中的每个聚类的边界。
[0013]在一些实施方式中,该方法包括由服务器计算设备经由神经网络模型从所述矩阵中标识聚类集中的每个聚类。在另一个实施方式中,该方法包括将神经网络模型的权重传送到多个客户端计算设备中的每一个客户端计算设备和至少一个内容提供者设备。
[0014]在再一个方面中,本公开涉及一种用于匿名化内容检索的系统。该系统包括计算设备,该计算设备包括与内容服务器通信的网络接口、存储计算设备的浏览历史的存储器、和浏览器应用。所述浏览器应用被配置成:生成基于计算设备的浏览历史的简档;将所述简档编码为n维向量;根据n维向量计算降维向量;确定与降维向量相对应的第一聚类;经由网络接口向内容服务器传送对内容项的请求,该请求包括第一聚类的标识;并且经由网络接口从内容服务器接收根据第一聚类的标识所选择的内容项。
[0015]在一些实施方式中,浏览器应用还被配置成生成具有值的字符串,所述值表示在预定时间段内对与字符串中的对应位置相关联的地址的一个或多个访问中的每一个访问。在一些实施方式中,浏览器应用还被配置成执行n维向量的奇异值分解。在另一个实施方式中,浏览器应用还被配置成经由网络接口从第二计算设备接收奇异值分解的奇异向量集。在再一个实施方式中,浏览器应用还被配置成经由网络接口向第二计算设备传送n维向量,第二计算设备基于所述计算设备的n维向量和至少一个其他计算设备的n维向量的聚合来计算奇异向量集。
[0016]在一些实施方式中,浏览器应用还被配置成:经由网络接口从第二计算设备接收基于所述计算设备的n维向量和至少一个其他计算设备的n维向量的聚合而确定的神经网络模型的权重;将神经网络模型应用于降维向量以生成预定聚类集的排名;并且选择第一聚类作为所述预定聚类集中的排名最高的聚类。
[0017]至少一个方面涉及一种对用于内容选择的标识符进行编码的方法。在客户端设备上执行的第一应用能够标识在客户端设备上维护的浏览历史。浏览历史能够记录由客户端设备经由第一应用访问的信息资源。第一应用能够将分类模型应用于第一应用的浏览历史,以标识在其中要将第一应用归类的类。第一应用能够将第一应用指派给与经标识的类相对应的类标识符。第一应用的类标识符能够与第二应用的类标识符相同。第一应用能够从内容发布者设备接收信息资源,该信息资源包括主要内容和可用于从内容选择服务接收内容的内容槽。第一应用能够针对信息资源的内容槽生成对内容的请求,所述内容的请求
包括用于第一应用的类标识符。第一应用能够将对内容的请求传送到内容选择服务。内容选择服务能够使用用于第一应用的类标识符和用于第二应用的类标识符,来选择要插入到信息资源的内容槽中的内容项。
[0018]在一些实施方式中,第一应用能够从应用管理员服务接收用于更新分类模型的参数集,所述分类模型用于将应用归类成多个类中的一个类。在一些实施方式中,第一应用能够基于从应用管理员服务接收到的参数集来修改在客户端设备上维护的分类模型。在一些实施方式中,第一应用能够与在多个对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于匿名化内容检索的方法,包括:由计算设备的浏览器应用基于所述计算设备的浏览历史来生成简档;由所述浏览器应用将所述简档编码为n维向量;由所述浏览器应用从所述n维向量计算降维向量;由所述浏览器应用确定与所述降维向量相对应的第一聚类;由所述浏览器应用向内容服务器传送对内容项的请求,所述请求包括所述第一聚类的标识;以及由所述浏览器应用从所述内容服务器接收根据所述第一聚类的标识选择的内容项。2.根据权利要求1所述的方法,其中,基于所述计算设备的用户的浏览历史来生成所述简档包括从所述浏览历史的日志中标识在预定时间段内对多个地址中的每一个地址的访问次数n。3.根据权利要求1所述的方法,其中,将所述简档编码为n维向量还包括生成具有表示如下的值的字符串:在预定时间段内对与所述字符串中的对应位置相关联的地址的一个或多个访问中的每一个访问。4.根据权利要求1所述的方法,其中,计算所述降维向量还包括执行所述n维向量的奇异值分解。5.根据权利要求4所述的方法,其中,计算所述降维向量还包括从第二计算设备接收所述奇异值分解的奇异向量集。6.根据权利要求5所述的方法,其中,计算所述降维向量还包括向所述第二计算设备传送所述n维向量,所述第二计算设备基于所述计算设备的所述n维向量和至少一个其他计算设备的n维向量的聚合来计算所述奇异向量集。7.根据权利要求1所述的方法,其中,确定与所述降维向量相对应的所述第一聚类还包括从第二计算设备接收多个聚类中的每一个聚类的边界。8.根据权利要求7所述的方法,其中,确定与所述降维向量相对应的所述第一聚类还包括:响应于所述降维向量在所述第一聚类的边界内,选择所述多个聚类中的第一聚类。9.根据权利要求1所述的方法,其中,确定与所述降维向量相对应的所述第一聚类还包括:由所述浏览器应用从第二计算设备接收基于所述计算设备的所述n维向量和至少一个其他计算设备的n维向量的聚合而确定的神经网络模型的权重;由所述浏览器应用的机器学习系统将所述神经网络模型应用于所述降维向量,以生成预定聚类集的排名;以及由所述浏览器应用选择所述第一聚类作为所述预定聚类集中的排名最高的聚类。10.一种用于匿名化内容检索的方法,包括:由服务器计算设备从多个客户端计算设备中的每一个客户端计算设备接收基于所对应的客户端计算设备的浏览历史的简档,每个简档包括n维向量;由所述服务器计算设备将多个简档的多个n维向量聚合成矩阵;由所述服务器计算设备计算所述矩阵的奇异值分解,以生成奇异值集;以及由所述服务器计算设备向所述多个客户端计算设备中的每一个客户端计算设备和至少一个内容提供者设备传送所述奇异值集。
11.根据权利要求10所述的方法,还包括由所述服务器计算设备确定所述矩阵的聚类集中的每个聚类的边界。12.根据权利要求11所述的方法,还包括由所述服务器计算设备向所述多个客户端计算设备中的每一个客户端计算设备和所述至少一个内容提供者设备传送所述矩阵的聚类集中的每个聚类的边界。13.根据权利要求10所述的方法,还包括由所述服务器计算设备经由神经网络模型从所述矩阵中标识聚类集中的每个聚类。14.根据权利要求13所述的方法,还包括将所述神经网络模型的权重传送到所述多个客户端计算设备中的每一个客户端计算设备和所述至少一个内容提供者设备。15.一种用于匿名化内容检索的系统,包括:计算设备,所述计算设备包括与内容服务器通信的网络接口、存储所述计算设备的浏览历史的存储器和浏览器应用,所述浏览器应用被配置成:基于所述计算设备的浏览历史来生成简档,将所述简档编码为n维向量,从所述n维向量计算降维向量,确定与所述降维向量相对应的第一聚类,经由所述网络接口向所述内容服务器传送对内容项的请求,所述请求包括所述第一聚类的标识,以及经由所述网络接口从所述内容服务器接收根据所述第一聚类的标识所选择的内容项。16.根据权利要求15所述的系统,其中,所述浏览器应用还被配置成生成具有用于表示如下的值的字符串:在预定时间段内对与所述字符串中的对应位置相关联的地址的一个或多个访...

【专利技术属性】
技术研发人员:王刚马塞尔
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1