一种确定物品相似度的方法及系统技术方案

技术编号:30834243 阅读:36 留言:0更新日期:2021-11-18 12:56
本发明专利技术提供了一种确定物品相似度的方法及系统,从第一数据库中获取多个用户对应的第一点击日志,第一点击日志根据用户的kafka消息生成;对所有第一点击日志中的物品ID进行过滤处理,得到第二点击日志;将所有第二点击日志输入预设的召回模型,利用召回模型确定相关的待处理物品之间的物品相似度。本方案中,获取由各个用户的kafka消息生成的第一点击日志。对第一点击日志中的物品ID进行数据清洗得到对应的第二点击日志。利用预设的召回模型对所有第二点击日志进行处理,得到相关的待处理物品之间的物品相似度。通过对物品ID进行数据清洗以减少数据的冗余,并利用召回模型确定物品之间的物品相似度,提高处理数据的速度和准确性。确性。确性。

【技术实现步骤摘要】
一种确定物品相似度的方法及系统


[0001]本专利技术涉及信息推荐
,具体涉及一种确定物品相似度的方法及系统。

技术介绍

[0002]随着互联网的发展,信息推荐业务是目前用户应用最为广泛的业务之一。在信息推荐业务的实际应用场景中,需通过召回模型从巨大的数据量中确定不同物品(item,例如新闻、视频和音乐等)之间的相似度,再将所确定的不同物品之间的相似度传回信息推荐业务以供其使用。
[0003]由于用户数量和item数量均为百万数量级,因此如何快速且准确的从大量数据中确定不同物品之间的相似度,是目前亟需待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种确定物品相似度的方法及系统,以快速和准确的从大量数据中确定不同物品之间的相似度。
[0005]为实现上述目的,本专利技术实施例提供如下技术方案:本专利技术实施例第一方面公开一种确定物品相似度的方法,所述方法包括:从第一数据库中获取多个用户对应的第一点击日志,所述第一点击日志根据所述用户的kafka消息生成,所述第一点击日志至少包含:所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种确定物品相似度的方法,其特征在于,所述方法包括:从第一数据库中获取多个用户对应的第一点击日志,所述第一点击日志根据所述用户的kafka消息生成,所述第一点击日志至少包含:所述用户的用户ID与所述用户所点击的待处理物品的物品ID之间的对应关系;对所有所述第一点击日志中的物品ID进行过滤处理,得到第二点击日志;将所有所述第二点击日志输入预设的召回模型,利用所述召回模型确定相关的所述待处理物品之间的物品相似度。2.根据权利要求1所述的方法,其特征在于,所述将所有所述第二点击日志输入预设的召回模型,利用所述召回模型确定相关的所述待处理物品之间的物品相似度,包括:对所有所述第二点击日志中的所述物品ID进行过滤处理和截断处理,以及对所有所述第二点击日志中的所述用户ID进行过滤处理,得到第三点击日志;根据所述第三点击日志,确定与其对应的所述用户的最终点击序列,所述最终点击序列包括:所述用户的用户ID,所述用户所点击的待处理物品的物品ID;针对每个所述第三点击日志对应的所述用户,利用所述用户的所述最终点击序列确定相应的物品对,所述物品对用于指示被同一用户点击过的一对所述待处理物品的物品ID;利用所有所述物品对,对所有所述第三点击日志对应的所述用户的用户ID进行聚合,确定每一所述物品对的共同用户;将所有所述物品对的共同用户进行穷举处理,得到多个用户对,所述用户对用于指示点击过相同所述待处理物品的一对所述用户的用户ID;确定每个所述用户对所共有的所述物品对;利用每个所述用户对所共有的所述物品对,计算得到每个所述用户对的用户相似度;利用每个所述用户对的用户相似度,计算所述物品对所对应的所述待处理物品之间的物品相似度。3.根据权利要求2所述的方法,其特征在于,所述对所有所述第二点击日志中的所述物品ID进行过滤处理和截断处理,以及对所有所述第二点击日志中的所述用户ID进行过滤处理,得到第三点击日志,包括:根据所有所述第二点击日志,确定各个所述待处理物品的被点击次数,及确定各个所述用户ID所对应的所述待处理物品的物品数量;根据所述被点击次数和所述物品数量,对所有所述第二点击日志执行以下步骤,得到第三点击日志;所述以下步骤包含:删除所述第二点击日志中所述被点击次数少于第一次数阈值的所述待处理物品的物品ID;删除所述物品数量在预设数量范围外的所述用户ID对应的所述第二点击日志;对于所述被点击次数大于第二次数阈值的所述待处理物品的物品ID,随机删除预设数量个所述第二点击日志中的所述物品ID,所述预设数量为:所述被点击次数减去所述第二次数阈值所得到的数值。4.根据权利要求1所述的方法,其特征在于,生成所述第一点击日志的过程,包括:获取所述用户的kafka消息;
将所述kafka消息中的指定数据删除,得到所述用户对应的点击序列,所述指定数据为除wap端点击日志以外的数据;将所述点击序列的格式转换为日志消息格式,得到对应的第...

【专利技术属性】
技术研发人员:陈宇翔朱凯泉
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1