用户分群处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21629123 阅读:20 留言:0更新日期:2019-07-17 11:09
本发明专利技术涉及一种用户分群处理方法、装置、计算机设备和存储介质,该方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。本申请的方案提高了分群的准确性。

User Clustering Processing, Devices, Computer Equipment and Storage Media

【技术实现步骤摘要】
用户分群处理方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,特别是涉及一种用户分群处理方法、装置、计算机设备和存储介质。
技术介绍
随着互联网的飞速发展,互联网用户的数量巨大,如何将海量用户划分为合理的群体非常重要。目前的方法是基于用户的基础信息(比如用户性别、年龄等)和应用状态信息(网络状况、应用版本等)等用户基础属性对用户进行分群。然而,用户基础属性只能反映用户的固定特征,无法体现用户自身的个性化特征,所以基于用户基础属性进行用户分群,往往会导致分群结果不够准确。
技术实现思路
基于此,有必要针对基于用户基础属性进行用户分群的结果不够准确的问题,提供一种用户分群处理方法、装置、计算机设备和存储介质。一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。一种用户分群处理装置,所述装置包括:点击序列获取模块,用于获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;主题分布确定模块,用于将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;群体分布确定模块,用于分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;群体确定模块,用于对各所述用户标识分别按照相应的群体分布确定所属的群体。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。一种存储有计算机程序的存储介质,所述计算机程序被一个或多个处理器执行时,使得一个或多个处理器执行如下步骤:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。上述用户分群处理方法、装置、计算机设备和存储介质,通过与各用户标识对应的记录所点击的信息标识的点击序列,进行主题模型训练,得到各点击序列相应的主题分布。其中,点击序列体现了用户对一系列信息的点击行为,而该点击行为在一定程度上反映了用户对信息的兴趣,所以得到的主题分布能够从用户对信息的点击行为抽象地总结用户对信息的兴趣。根据主题分布确定点击序列相应用户标识的群体分布,该群体分布则也可以体现用户对信息的兴趣偏好,所以根据用户标识的群体分布可以准确地确定出用户标识所属的群体,提高了分群的准确性。附图说明图1为一个实施例中用户分群处理方法的应用场景图;图2为一个实施例中用户分群处理方法的流程示意图;图3为一个实施例中LDA主题模型中生成文档过程的图模型示意图;图4为一个实施例中用户信息集获取步骤的流程示意图;图5为一个实施例中用户分群处理方法的流程总览示意图;图6为一个实施例中用户分群处理方法的数据流向图;图7为一个实施例中用户分群处理方法的架构示意图;图8为另一个实施例中用户分群处理方法的流程示意图;图9为一个实施例中用户分群处理装置的框图;图10为另一个实施例中用户分群处理装置的框图;图11为又一个实施例中用户分群处理装置的框图;图12为一个实施例中计算机设备的内部结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中用户分群处理方法的应用场景图。参照图1,该应用场景中包括通过网络连接的终端110和服务器120。终端110可以是个人计算机或者移动电子设备,移动电子设备包括手机、平板电脑、个人数字助理或者穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。用户标识对应的用户可以在终端110上显示的信息进行点击,得到所点击的信息的信息标识。服务器120可以获取终端110所获取的信息标识,并根据该信息标识,获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列。可以理解,这里只是为了方便理解形成点击序列的基础数据的来源,但并不用于限定服务器120需要通过从终端接收点击的信息标识的方式来获取点击序列,服务器120也可以直接获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列。服务器120可以将点击序列和点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各点击序列相应的主题分布。服务器120可以分别按照各点击序列相应的主题分布,确定各点击序列相应用户标识的群体分布,对各用户标识分别按照相应的群体分布确定所属的群体。图2为一个实施例中用户分群处理方法的流程示意图。本实施例主要以该方法应用于计算机设备来举例说明,该计算机设备可以是图2中的服务器120。参照图2,该方法具体包括如下步骤:S202,获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列。其中,用户标识用于唯一标识对应的用户。用户标识可以是账号或手机号等。训练集是用于进行主题模型训练的用户信息的集合。训练集中包括多个用于进行主题模型训练的用户标识和对应的点击序列。在一个实施例中,训练集是从用户信息集中划分得到的,属于用户信息集的一部分。需要说明的是,用户信息集中包括用户标识和对应的点击序列。信息标识,用于唯一标识相应的信息。信息包括文章、图片、动画、视频、音频和商品等中的至少一种。文章可以是纯文字描述的文章,也可以是混合型文章,比如,图文混合或者音视频文字混合等。视频可以是短视频或电影等。点击序列,是记录用户标识对应的用户所点击的信息标识的序列。可以理解,用户标识对应的用户在点击信息时,计算机设备可以记录该被点击的信息的信息标识,计算机设备可以根据各个被该用户标识对应的用户点击的信息标识,生成与该用户标识对应的点击序列。点击序列中包括信息标识。点击序列还可以包括信息标识和对应于该信息标识的用户标识。可以理解,每个用户标识都有各自所对应的点击序列。比如,用户的用户标识为a,该用户点击了3个信息,该3个信息分别对应的信息标识为ID_001、ID_002和ID_003,则该用户标识a对应的点击序列可以是(ID_001,ID_002,ID_003),还可以是包括用户标识和信息标识的序列,如(a,ID_001,ID_002,ID_003)。S204,将点击本文档来自技高网...

【技术保护点】
1.一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。

【技术特征摘要】
1.一种用户分群处理方法,所述方法包括:获取与训练集中的各用户标识对应的记录所点击的信息标识的点击序列;将所述点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练,得到各所述点击序列相应的主题分布;分别按照各所述点击序列相应的主题分布,确定各所述点击序列相应用户标识的群体分布;对各所述用户标识分别按照相应的群体分布确定所属的群体。2.根据权利要求1所述的方法,其特征在于,还包括:获取用户信息集;将用户信息集划分为训练集和推测集;根据由所述训练集训练得到的主题模型的参数以及所述推测集,训练所述推测集对应的主题模型;根据所述推测集对应的主题模型确定所述推测集中用户标识所属的群体。3.根据权利要求2所述的方法,其特征在于,所述获取用户信息集包括:获取候选的各用户标识对应的已点击的信息标识;获取候选的各用户标识对应的记录对应于信息标识的操作行为记录;从获取的信息标识中,根据所述操作行为记录过滤掉无效点击的信息标识;根据候选的各用户标识对应的过滤后剩余的信息标识,生成相应点击序列;根据所述点击序列和相应用户标识得到用户信息集。4.根据权利要求3所述的方法,其特征在于,所述从获取的信息标识中,根据所述操作行为记录过滤掉无效点击的信息标识包括:获取所述操作行为记录中对应于获取的所述信息标识的操作行为数据;在获取的操作行为数据中筛选符合无效点击判断条件的操作行为数据;从获取的信息标识中,将筛选出的操作行为数据所对应的信息标识过滤掉。5.根据权利要求2所述的方法,其特征在于,所述获取用户信息集包括:获取候选的各用户标识对应的已点击的信息标识;从获取的信息标识中,过滤属于热门信息类和/或冷门信息类的信息标识;根据候选的各用户标识对应的过滤后剩余的信息标识,生成相应点击序列;根据所述点击序列和相应用户标识得到用户信息集。6.根据权利要求5所述的方法,其特征在于,还包括:查询获取的信息标识各自对应的点击次数或点击频率;将对应的点击次数或点击频率大于等于高频点击阈值的信息标识归类到热门信息类;将对应的点击次数或点击频率小于等于低频点击阈值的信息标识归类到冷门信息类。7.根据权利要求2所述的方法,其特征在于,所述主题模型的参数为所述训练集经过训练得到的主题与信息标识的概率分布;所述根据由所述训练集训练得到的主题模型的参数以及所述推测集,训练所述推测集对应的主题模型包括:获取与推测集中的各用户标识对应的点击序列;根据所述主题与信息标识的概率分布,并将所述推测集中的各用户标识对应的点击序列和所述点击序列中的信息标识分别作为主题模型中的文档和单词,进行主题模型训练。8.根据权利要求1所述的方法,其特征在于,所述对各所述用户标识分别按照相应的群体...

【专利技术属性】
技术研发人员:唐红艳赵铭范欣张伟
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1