一种相似用户挖掘方法及装置,电子设备制造方法及图纸

技术编号:16780469 阅读:20 留言:0更新日期:2017-12-13 00:25
本申请提供了一种相似用户挖掘方法,属于计算机技术领域,解决了现有技术中存在的确定的相似用户准确率较低的问题。所述方法包括:基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。

【技术实现步骤摘要】
一种相似用户挖掘方法及装置,电子设备
本申请涉及计算机
,特别是涉及一种相似用户挖掘方法及装置,电子设备。
技术介绍
基于用户之间的相似度向用户推送各种信息或产品、服务,已经是网络引用中比较常见的提高用户体验的一种方式。因此,挖掘相似用户的方法逐渐成为互联网应用的一个重要课题。目前常规的相似用户挖掘的方法是根据一些统计指标确定用户之间的相似度。例如:将用户购买某类商品的次数、浏览某类商品的次数、用户出现在某个地方的次数等等作为统计指标;然后,将这些统计指标放到一起,作为描述该用户的特征向量;最后,利用这些特征向量之间的距离,作为用户相似性的度量的依据,距离越近,用户之间的相似度越高。但是,由于现有方案中,用户的特征向量基于预设的统计指标提取,因此统计指标直接影响特征向量对用户描述的准确性。而设计出准确描述用户特征的统计指标非常困难,所以,采用现有技术中的相似度度量方法会导致确定的相似用户准确率较低。可见,现有技术中的相似度度量方法过于依赖认为经验设计的统计指标,从而导致确定的相似用户准确率较低。
技术实现思路
本申请提供一种相似用户挖掘方法,解决现有技术中存在的确定的相似用户准确率较低的问题。为了解决上述问题,第一方面,本申请实施例提供了一种相似用户挖掘方法包括:基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;获取所述共现关系数据中所有用户的最优特征向量;根据用户的最优特征向量之间的相似度距离,挖掘相似用户。第二方面,本申请实施例提供了一种相似用户挖掘装置,包括:共现关系数据获取模块,用于基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;特征向量获取模块,用于获取所述共现关系数据中所有用户的最优特征向量;相似用户挖掘模块,用于根据所述特征向量获取模块获取的用户的最优特征向量之间的相似度距离,挖掘相似用户。第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的相似用户挖掘方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的相似用户挖掘方法的步骤。本申请实施例公开的相似用户挖掘方法,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确率较低的问题。通过基于用户行为日志提取的用户共现关系,从多个维度获取用户的特征向量,并依据获取的特征向量确定用户之间的相似度,从而挖掘相似用户,有效提升了确定用户相似度的准确性。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例一的相似用户挖掘方法流程图;图2是本申请实施例二的相似用户挖掘方法一个步骤的流程图;图3是本申请实施例二的相似用户挖掘方法另一个步骤的流程图;图4是本申请实施例三的相似用户挖掘装置结构示意图之一;图5是本申请实施例三的相似用户挖掘装置结构示意图之二。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。实施例一本实施例公开的一种相似用户挖掘方法,如图1所示,该方法包括:步骤100至步骤120。步骤100,基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户。本申请实施例中所述的实体是指用户的线上线下行为关联的主体,至少包括用户,还可以包括以下任意一项或多项:商家、地理位置、WIFI地址、IP地址、产品等。本申请实施例中所述的共现关系是指根据业务需求确定的实体之间的一种关联关系。例如,用户A和用户B同时进入商家甲,则认为:用户A和用户B共现、用户A和商家甲共现、用户B和商家甲共现。再例如,用户A和用户B都连接过WIFI地址1,则认为:用户A和WIFI地址1共现、用户B和WIFI地址1共现。再例如,用户A从未访问过商家乙,则认为:用户A和商家甲不共现。随着互联网技术的发展,各种应用的后台服务器都会搜集和存储用户的行为日志,用于数据分析,便于给用户提供更好的服务。用户行为日志包括用户浏览网页、点击页面的商品、切换页面、购买产品、浏览商家、连接商家WIFI等行为的日志。具体实施时,通过访问后台数据服务器可以或渠道用户行为日志,根据获取的用户行为日志可以得到平台上所有实体之间的共现关系数据。本申请中,仅关注用户和包括用户在内的其他实体之间的共现关系数据。共现关系数据至少包括:用户和与该用户共现的实体的关联关系;所述共现关系数据还包括:用户和与该用户不共现的实体的关联关系。具体实施时,可以建立一个用户与包括用户在内的其他实体的关联关系表,所述关联关系表中的每个条目用于记录某一用户共现的实体或某一用户不共现的实体。步骤110,获取所述共现关系数据中所有用户的最优特征向量。通过一个多维的特征向量表征实体的特征是现有技术中比较常见的做法,但是特征向量的获取策略直接决定了获取的特征向量对实体特征表达的准确性。本申请具体实施时,通过实体的特征向量之间的距离构建共现概率模型,然后,通过求解基于所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。首先,为所述共现关系数据中的每个实体初始化一个多维特征向量。例如:用户、商家等初始化一个50维特征向量,向量取值为随机数。然后,通过数值优化方法,不断调整各实体的特征向量的取值,以求解所述数值优化问题。满足所述数值优化问题的各实体的特征向量为最优特征向量。所述特征向量的维度数量的最佳取值根据相似度评估的效果最终确定,通常用户数目越多,特征维度的数量越多。具体实施时,特征维度的数量可以取40~1000之间的某个整数。步骤120,根据用户的最优特征向量之间的相似度距离,挖掘相似用户。确定所述共现关系数据中每个实体的最优特征向量之后,分别计算每个用户和其他用户的特征向量之间的相似度距离,并选择相似度距离小于某个给定阈值的用户对作为相似用户。具体实施时,所述给定阈值根据任务需要设定,如果需要得到高质量的相似用户,可以设置一个较小的阈值;如果需要得到更多的相似用户,可以设置一个较大的阈值。本实施例公开的相似用户挖掘方法,通过基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户,然后,获取所述共现关系数据中所有用户的最优特征向量,最后根据用户的最优特征向量之间的相似度距离,挖掘相似用户,解决了现有技术中存在的确定的相似用户准确本文档来自技高网...
一种相似用户挖掘方法及装置,电子设备

【技术保护点】
一种相似用户挖掘方法,其特征在于,包括:基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;获取所述共现关系数据中所有用户的最优特征向量;根据用户的最优特征向量之间的相似度距离,挖掘相似用户。

【技术特征摘要】
1.一种相似用户挖掘方法,其特征在于,包括:基于用户行为日志,获取用户和预设实体的共现关系数据,所述预设实体至少包括不同于所述用户的其他用户;获取所述共现关系数据中所有用户的最优特征向量;根据用户的最优特征向量之间的相似度距离,挖掘相似用户。2.根据权利要求1所述的方法,其特征在于,所述获取所述共现关系数据中所有用户的最优特征向量的步骤,包括:通过隐向量初始化所述共现关系数据中包括的用户和预设实体的特征向量;基于所述共现关系数据中包括的实体对的特征向量之间的距离,构建共现概率模型,其中,所述实体对是每条共现关系数据中的用户和预设实体的组合;求解根据所述共现概率模型设置的数值优化问题,得到所述用户和所述预设实体的最优特征向量。3.根据权利要求2所述的方法,其特征在于,所述数值优化问题的目标包括:寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现。4.根据权利要求2所述的方法,其特征在于,所述共现关系数据还包括:与共现关系类型对应的权重,所述数值优化问题的目标包括:寻找实体对的最优特征向量,使得按照预设策略计算的共现关系数据中共现事件和不共现事件的加权联合概率最大;其中,所述共现事件是用户和预设实体共现,所述不共现事件是用户和预设实体不共现;所述加权联合概率的加权值为各事件对应的共现关系类型的权重。5.根据权利要求1所述的方法,其特征在于,所述基于用户行为日志,获取用户和预设实体的共现关系数据的步骤,包括:基于用户行为日志,针对每个用户,构建共现关系数据,...

【专利技术属性】
技术研发人员:左元付晴川江曼朱日兵
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1