用户特征生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26650738 阅读:41 留言:0更新日期:2020-12-09 00:51
本公开提供了用户特征生成方法、装置、电子设备及存储介质,涉及大数据处理等领域。具体实现方案为:获取目标用户在第一预设时长内的N个历史行为数据;其中,N为大于等于1的整数;基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题,基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题;其中,M和K为大于等于1的整数;基于所述K个历史行为数据集合分别对应的候选簇的中心向量,确定所述K个历史行为数据集合分别对应的目标行为数据;将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。

【技术实现步骤摘要】
用户特征生成方法、装置、电子设备及存储介质
本公开涉及计算机
本公开尤其涉及大数据处理领域。
技术介绍
现有技术中,为了综合考虑线上性能和模型效果,对用户长周期行为数据的应用具有很大程度的截断,比如只对用户短期的行为进行挖掘和应用或者是对基于长周期挖掘结果进行一些随机选取,并没有将用户长期的行为进行全面充分挖掘和应用。然而,如何对用户的历史行为数据进行更加全面的理解,就成为需要解决的问题。
技术实现思路
本公开提供了一种用户特征生成方法、装置、电子设备及存储介质。根据本公开的一方面,提供了一种用户特征生成方法,包括:获取目标用户在第一预设时长内的N个历史行为数据;其中,N为大于等于1的整数;基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题,基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题;其中,M和K为大于等于1的整数;基于所述K个历史行为数据集合分别对应的候选簇的中心向量,确定所述K个历史行为数据集合分别对应的目标行为数据;<本文档来自技高网...

【技术保护点】
1.一种用户特征生成方法,包括:/n获取目标用户在第一预设时长内的N个历史行为数据;其中,N为大于等于1的整数;/n基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题,基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题;其中,M和K为大于等于1的整数;/n基于所述K个历史行为数据集合分别对应的候选簇的中心向量,确定所述K个历史行为数据集合分别对应的目标行为数据;/n将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。/n

【技术特征摘要】
1.一种用户特征生成方法,包括:
获取目标用户在第一预设时长内的N个历史行为数据;其中,N为大于等于1的整数;
基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题,基于所述N个历史行为数据分别对应的主题进行聚合得到K个历史行为数据集合及其主题;其中,M和K为大于等于1的整数;
基于所述K个历史行为数据集合分别对应的候选簇的中心向量,确定所述K个历史行为数据集合分别对应的目标行为数据;
将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。


2.根据权利要求1所述的方法,其中,所述基于M个候选簇的主题词确定所述N个历史行为数据分别对应的主题,包括:
将所述目标用户的所述N个历史行为数据中的第i个历史行为数据与所述M个候选簇的主题词分别进行匹配,将所述第i个历史行为数据所匹配的候选簇的主题词作为所述第i个历史行为数据对应的主题;其中,所述i为大于等于1且小于等于N的整数。


3.根据权利要求1所述的方法,其中,所述基于所述K个历史行为数据集合分别对应的候选簇的中心向量,确定所述K个历史行为数据集合分别对应的目标行为数据,包括:
将所述K个历史行为数据集合中的第j个历史行为数据集合中包含的历史行为数据,与所述第j个历史行为数据集合对应的候选簇的中心向量进行比对,确定与所述第j个历史行为数据集合对应的所述候选簇的所述中心向量距离最近的历史行为数据作为所述第j个历史行为数据集合所对应的目标行为数据;其中,所述j为大于等于1且小于等于K的整数。


4.根据权利要求1所述的方法,其中,所述将所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征,包括:
基于所述K个历史行为数据集合分别对应的所述目标行为数据的时间信息和/或频次信息,对所述K个历史行为数据集合进行排序;
基于所述K个历史行为数据集合的排序确定所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据的排序,将排序后的所述K个历史行为数据集合分别对应的所述主题以及所述目标行为数据作为所述目标用户的特征。


5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
获取L个用户在第二预设时长内的历史行为数据,生成所述历史行为数据的句向量;其中,所述L为大于等于1的整数;
基于所述L个用户的所述历史行为数据的句向量,确定M个候选簇;
提取所述M个候选簇的主题词以及所述M个候选簇的中心向量。


6.根据权利要求5所述的方法,其中,所述基于所述L个用户的所述历史行为数据的句向量,确定M个候选簇,包括:
基于所述L个用户的所述历史行为数据的句向量进行聚簇,得到至少一个簇;
确定所述至少一个簇分别对应的主题词;
基于当前场景相关的主题以及所述至少一个簇分别对应的主题词,筛选得到所述M个候选簇。


7.一种用户特征生成装置,包括:
获取模块,用于获取目标用户在第一预设时长内的N个历史行为数据;其中...

【专利技术属性】
技术研发人员:文灿周俊张英欧阳利萍
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1