目标用户挖掘方法、装置、设备及介质制造方法及图纸

技术编号:33460840 阅读:24 留言:0更新日期:2022-05-19 00:41
本申请适用于大数据分析技术领域,特别涉及一种目标用户挖掘方法、目标用户挖掘装置、计算机设备及可读存储介质,其中一种目标用户挖掘方法:通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到种子用户集合对应的种子矩阵,与非种子用户集合对应的非种子矩阵,利用位图压缩算法对种子矩阵与非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合,计算每个第二用户与X个第一用户之间的相似度,得到每个第二用户对应的相似度集合,基于相似度集合,从第二用户集合中确定出目标用户集合,目标用户集合中的每个目标用户为相似度大于预设阈值的第二用户。应用本申请实施例所提供的技术方案,提高了目标用户挖掘的效率。掘的效率。掘的效率。

【技术实现步骤摘要】
目标用户挖掘方法、装置、设备及介质


[0001]本专利技术属于大数据分析
,特别涉及一种目标用户挖掘方法、目标用户挖掘装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]目标用户挖掘是根据已有的高价值的种子用户集合,从非种子用户集合中挖掘出与种子用户集合中的种子用户相似的和潜在的高价值用户。现有的目标用户挖掘方案是主要基于标签的方式,通过匹配种子用户与非种子用户之间的标签计算非种子用户与种子用户之间的相似度,选取和种子用户相似度最高的非种子用户来作为目标用户。但是这样的目标用户挖掘方案因为种子用户与非种子用户本身为海量数据,针对海量数据进行运算会耗费大量时间,带来目标用户挖掘的效率不高的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种目标用户挖掘方法、目标用户挖掘装置、计算机设备及计算机可读存储介质,以解决现有技术中存在的目标用户挖掘的效率不高的问题。
[0004]本申请实施例的第一方面提供了一种目标用户挖掘方法,包括:
[0005]通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到所述种子用户集合对应的种子矩阵,与所述非种子用户集合对应的非种子矩阵;
[0006]利用位图压缩算法对所述种子矩阵与所述非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合;所述第一用户集合包括X个第一用户,且X为大于1的整数;所述第二用户集合包括Y个第二用户,且Y为大于1的整数;
[0007]计算每个所述第二用户与X个所述第一用户之间的相似度,得到每个所述第二用户对应的相似度集合;所述相似度集合中包括所述第二用户的X个相似度;
[0008]基于所述相似度集合,从所述第二用户集合中确定出目标用户集合,所述目标用户集合中的每个目标用户为相似度大于预设阈值的第二用户。
[0009]本申请实施例的第二方面提供了一种目标用户挖掘装置,包括:
[0010]选取模块,用于通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到所述种子用户集合对应的种子矩阵,与所述非种子用户集合对应的非种子矩阵;
[0011]压缩模块,用于利用位图压缩算法对所述种子矩阵与所述非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合;所述第一用户集合包括X个第一用户,且X为大于1的整数;所述第二用户集合包括Y个第二用户,且Y为大于1的整数;
[0012]计算模块,用于计算每个所述第二用户与X个所述第一用户之间的相似度,得到每个所述第二用户对应的相似度集合;所述相似度集合中包括所述第二用户的X个相似度;
[0013]确定模块,用于基于所述相似度集合,从所述第二用户集合中确定出目标用户集合,所述目标用户集合中的每个目标用户为相似度大于预设阈值的第二用户。
[0014]本申请实施例的第三方面提供了一种计算机设备,包括存储器、处理器以及存储
在所述存储器中并可在计算机设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方案提供的目标用户挖掘方法的各步骤。
[0015]本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方案提供的目标用户挖掘方法的各步骤。
[0016]实施本申请实施例提供的一种目标用户挖掘方法、目标用户挖掘装置、计算机设备及计算机可读存储介质具有以下有益效果:
[0017]本申请实施例提供的一种目标用户挖掘方法、目标用户挖掘装置、计算机设备及计算机可读存储介质,通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到种子用户集合对应的种子矩阵,与非种子用户集合对应的非种子矩阵,因为通过数据缓存层先对集合进行离线特征选取,减少了对集合数据的计算量,缩短计算时长,所以利用位图压缩算法对种子矩阵与非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合,能够进一步减少数据存储消耗,又因为第一用户集合与第二用户集合是基于相同的方式进行特征选取和压缩得到的,所以计算每个第二用户与X个第一用户之间的相似度之间的相似度,得到每个第二用户对应的相似度集合,且基于相似度集合,从第二用户集合中确定出相似度大于预设阈值的第二用户作为目标用户集合的目标用户。实现了对通过数据缓存层对种子用户集合与非种子用户集合进行特征选取和压缩得到第一用户集合与第二用户集合,然后通过计算每个第二用户与X个第一用户之间的相似度,得到相似度集合,进而能够快速地从第二用户集合中确定出目标用户集合。减少目标用户挖掘在运算过程中耗费的时间,提高了目标用户挖掘的效率。
附图说明
[0018]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1为本申请实施例提供的一种目标用户挖掘方法的实现流程图;
[0020]图2为本申请实施例提供的服务器的设计架构示意图;
[0021]图3为本申请实施例提供的一种目标用户挖掘装置的结构框图;
[0022]图4为本申请实施例提供的一种计算机设备的结构框图。
具体实施方式
[0023]为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0024]本实施例提供的一种目标用户挖掘方法,执行主体为服务器集群中用于对目标用户进行挖掘的目标服务器。这里,服务器集群可以是由多个服务器组成的服务器集群,基于该服务器集群构建分布式系统,令构建分布式系统所需的各组件能够被配置到服务器集群中的各服务器中,被配置有分布式系统组件的服务器,也可以被称为组件服务器。服务器集
群中的各服务器之间能够进行数据共享或数据同步。在此基础上,向该服务器集群中的任一服务器配置目标脚本文件,由该目标脚本文件描述本实施例提供的目标用户挖掘方法,使得该配置有目标脚本文件的服务器能够通过执行该目标脚本文件,进而执行目标用户挖掘方法中的各个步骤。或者,通过对服务器集群配置新的服务器,向该新的服务器配置目标脚本文件,由该目标脚本文件描述本实施例提供的目标用户挖掘方法,使得该新的服务器能够通过执行该目标脚本文件,进而执行目标用户挖掘方法中的各个步骤。
[0025]在实现时,服务器集群中用于对目标用户进行挖掘的目标服务器。例如,目标服务器通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到种子用户集合对应的种子矩阵,与非种子用户集合对应的非种子矩阵,因为通过数据缓存层先对集合进行离线特征选取,减少了对集合数据的计算量,缩短计算时长,所以目标服务器利用位图压缩算法对种子矩阵与非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合,能够进一步减少数据存储消本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种目标用户挖掘方法,其特征在于,包括:通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到所述种子用户集合对应的种子矩阵,与所述非种子用户集合对应的非种子矩阵;利用位图压缩算法对所述种子矩阵与所述非种子矩阵分别进行压缩,得到第一用户集合与第二用户集合;所述第一用户集合包括X个第一用户,且X为大于1的整数;所述第二用户集合包括Y个第二用户,且Y为大于1的整数;计算每个所述第二用户与X个所述第一用户之间的相似度,得到每个所述第二用户对应的相似度集合;所述相似度集合中包括所述第二用户的X个相似度;基于所述相似度集合,从所述第二用户集合中确定出目标用户集合,所述目标用户集合中的每个目标用户为相似度大于预设阈值的第二用户。2.根据权利要求1所述的方法,其特征在于,所述通过数据缓存层对种子用户集合与非种子用户集合分别进行特征选取,得到所述种子用户集合对应的种子矩阵,与所述非种子用户集合对应的非种子矩阵,包括:通过所述数据缓存层,对所述种子用户集合中每个种子用户与所述非种子用户集合中每个非种子用户分别进行标签化处理,得到每个所述种子用户的第一标签集合与每个所述非种子用户的第二标签集合;根据所述第一标签集合以及所述第一标签集合中每个标签对应的第一标签值,得到所述种子用户集合对应的种子初始矩阵;根据所述第二标签集合以及所述第二标签集合中每个标签对应的第二标签值,得到所述非种子用户集合对应的非种子初始矩阵;将所述种子初始矩阵与所述非种子初始矩阵分别进行二进制处理,得到种子矩阵与非种子矩阵。3.根据权利要求2所述的方法,其特征在于,所述通过所述数据缓存层,对所述种子用户集合中每个种子用户与所述非种子用户集合中每个非种子用户分别进行标签化处理,得到每个所述种子用户的第一标签集合与每个所述非种子用户的第二标签集合,包括:基于每个所述种子用户与每个所述非种子用户的个人信息分别生成第一用户信息标签与第二用户信息标签,且基于每个所述种子用户与每个所述非种子用户预设时间内的行为信息分别生成第一用户行为标签与第二用户行为标签;根据所述第一用户信息标签与所述第一用户行为标签,得到每个所述种子用户的第一标签集合;根据所述第二用户信息标签与所述第二用户行为标签,得到每个所述非种子用户的第二标签集合。4.根据权利要求2所述的方法,其特征在于,所述将所述种子初始矩阵与所述非种子初始矩阵分别进行二进制处理,得到种子矩阵与非种子矩阵,包括:将所述初始种子矩阵与所述初始非种子矩阵对应的每个元素分别进行二进制处理,得到种子矩阵与非种子矩阵。5...

【专利技术属性】
技术研发人员:刘文渊蔡凡华毛佩芳薛东荣
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1