【技术实现步骤摘要】
用户分群处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,特别是涉及一种用户分群处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的飞速发展,互联网用户的数量巨大,如何将海量用户划分为合理的群体非常重要。目前的方法是基于用户的基础信息(比如用户性别、年龄等)和应用状态信息(网络状况、应用版本等)等用户基础属性对用户进行分群。然而,用户基础属性只能反映用户的固定特征,无法体现用户自身的个性化特征,所以基于用户基础属性进行用户分群,往往会导致分群结果不够准确。
技术实现思路
基于此,有必要针对基于用户基础属性进行用户分群的结果不够准确的问题,提供一种用户分群处理方法、装置、计算机设备和存储介质。一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。一种用户分群处理装置,所述装置包括:点击序列获取模块,用于获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;主题分布确定模块,用于将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;群体分布确定模块,用于分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;群体确定模块,用于对各所述用 ...
【技术保护点】
1.一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。
【技术特征摘要】
1.一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。2.根据权利要求1所述的方法,其特征在于,还包括:获取用户信息集;将用户信息集划分为训练集和推测集;根据由所述训练集训练得到的主题模型的参数以及所述推测集,训练所述推测集对应的主题模型;根据所述推测集对应的主题模型确定所述推测集中用户标识所属的群体。3.根据权利要求2所述的方法,其特征在于,所述获取用户信息集包括:获取候选的各用户标识对应的已点击的信息标识;获取候选的各用户标识对应的记录对应于信息标识的操作行为记录;从获取的信息标识中,根据所述操作行为记录过滤掉无效点击的信息标识;根据候选的各用户标识对应的过滤后剩余的信息标识,生成相应点击序列;根据所述点击序列和相应用户标识得到用户信息集。4.根据权利要求3所述的方法,其特征在于,所述从获取的信息标识中,根据所述操作行为记录过滤掉无效点击的信息标识包括:获取所述操作行为记录中对应于获取的所述信息标识的操作行为数据;在获取的操作行为数据中筛选符合无效点击判断条件的操作行为数据;从获取的信息标识中,将筛选出的操作行为数据所对应的信息标识过滤掉。5.根据权利要求2所述的方法,其特征在于,所述获取用户信息集包括:获取候选的各用户标识对应的已点击的信息标识;从获取的信息标识中,过滤属于热门信息类和/或冷门信息类的信息标识;根据候选的各用户标识对应的过滤后剩余的信息标识,生成相应点击序列;根据所述点击序列和相应用户标识得到用户信息集。6.根据权利要求5所述的方法,其特征在于,还包括:查询获取的信息标识各自对应的点击次数或点击频率;将对应的点击次数或点击频率大于等于高频点击阈值的信息标识归类到热门信息类;将对应的点击次数或点击频率小于等于低频点击阈值的信息标识归类到冷门信息类。7.根据权利要求2所述的方法,其特征在于,所述主题模型的参数为所述训练集经过训练得到的主题与信息标识的概率分布;所述根据由所述训练集训练得到的主题模型的参数以及所述推测集,训练所述推测集对应的主题模型包括:获取与推测集中的各用户标识对应的点击序列;根据所述主题与信息标识的概率分布,并将所述推测集中的各用户标识对应的点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练。8.根据权利要求1所述的方法,其特征在于,所述对各所述用户标识分别按照相应的群体...
【专利技术属性】
技术研发人员:唐红艳,赵铭,范欣,张伟,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。