一种数据处理方法以及相关装置制造方法及图纸

技术编号:46619785 阅读:1 留言:0更新日期:2025-10-14 21:15
本申请公开了一种数据处理方法以及相关装置,应用于计算机技术领域。该方法将数据库中在预设时间内项目不变的预设对象作为全量数据,基于该全量数据中的项目获取目标推荐列表,再依据对目标推荐列表的操作确定的项目累积获得增量数据,增量数据的项目数量小于第一阈值时进行明文存储,大于第一阈值时通过布隆过滤器存储。通过上述方式,将只在项目数量大于第一阈值的增量数据使用布隆过滤器存储,即布隆过滤器的预置空间需大于第一阈值,可以容纳足够多的哈希函数,避免了布隆过滤器预置空间太小误判率过高的问题,且项目数量低于第一阈值时采用明文存储,在查询数据时可以直接查找,进一步减少误判率。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据处理方法以及相关装置


技术介绍

1、推荐系统在向用户推荐资源列表时,可能会出现重复推荐的情形,用户可能重复查看相同的资源,浪费时间,造成不好的用户体验。

2、为了尽量减少重复推荐,当前对于用户在资源列表中已经查看过的资源,一般使用布隆过滤器(bloom filter)来映射存储,布隆过滤器是一种紧凑型的、比较巧妙的概率型数据结构,其特点在于高效地插入和查询,可以用来判断某样东西一定不存在或者可能存在。布隆过滤器使用多个哈希函数,将一个数据映射到位图结构中。

3、单一布隆过滤器是固定容量大小的,不易预置空间,在预置空间中哈希函数的个数较多时,每个元素在插入布隆过滤器后,会有更多的哈希函数将其映射到不同的位上,这样就增加了元素在布隆过滤器中的“指纹”或“标识”的独特性,可以避免哈希冲突,减少因哈希冲突导致的误报率。但是,对于较小预置空间的布隆过滤器来说,由于空间限制,可能无法容纳足够多的哈希函数,从而导致误报率的增加。


技术实现思路

1、本申请实施例提供本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述获取目标推荐列表包括:

4.根据权利要求3所述的方法,其特征在于,所述第一布隆过滤器为可扩展布隆过滤器,所述第二布隆过滤器为单一布隆过滤器,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,在根据所述增量数据中的项目对所述初始推荐列表进行过滤,以获得所述目标推荐列表之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述初始推荐列表为陌生人列表,所述全量数据为...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述获取目标推荐列表包括:

4.根据权利要求3所述的方法,其特征在于,所述第一布隆过滤器为可扩展布隆过滤器,所述第二布隆过滤器为单一布隆过滤器,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,在根据所述增量数据中的项目对所述初始推荐列表进行过滤,以获得所述目标推荐列表之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述初始推荐列表为陌生人列表,所述全量数据为已添加好友数据,在根据所述增量数据中的项目对所述初始推荐列表进行过滤,以获得所述目标推荐列表之前,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,所述全量数据为已添加好友数据,所述初始推荐列表为好友召回列表,所述好友召回列表为对所述已添加好友数据中的好友提供召回功能的列表,所述增量数据为召回点击数据,所述召回点击数据包括所述好友召回列表上被点击过的好友的好友标识,所述根据所述增量数据中的项目对所述初始推荐列表进行过滤,以获得所述目标推荐列表包括:

8.根据权利要求4所述的方法,其特征在于,所述当所述全量数据的项目数量大于所述第二阈值时,...

【专利技术属性】
技术研发人员:李胜辉林文清
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1