用户群体的分类方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:31593251 阅读:12 留言:0更新日期:2021-12-25 11:41
本发明专利技术公开了一种用户群体的分类方法、装置、存储介质及计算机设备。其中方法包括:获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集;利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体,以提高分类效率。提高分类效率。提高分类效率。

【技术实现步骤摘要】
用户群体的分类方法、装置、存储介质及计算机设备


[0001]本专利技术涉及大数据处理
,尤其是涉及一种用户群体的分类方法、装置、存储介质及计算机设备。

技术介绍

[0002]用户群体分类是在以用户为运营载体的各行各业发展过程中尤为重要的一个环节,在面对如电商、公共资源管理、信息安全管理等拥有巨大用户群体的平台时,如何做到将独立的用户对象进行群体分类,是一件十分困难且重要的工作。相较于传统的依据用户属性构造特征进行群体分类的方法,将用户的操作行为当作原始特征进行用户群体划分的方法显然更为创新和有效,并且,按照用户操作行为对用户群体进行划分之后,在将其分类数据应用到下游工作中时,也更能发挥出精准推荐、拉新留存、群体管理等各项优势来。
[0003]在现有技术中,基于用户操作行为的群体分类方法大多是根据用户操作行为的基本属性、用户行为轨迹和用户社交联系等属性作为特征,结合业务逻辑为数据集添加标签,并使用有监督机器学习算法对用户群体进行分类。但是,这种用户群体的分类方法无法适用于用户之间无社交关系和用户操作无行为轨迹的应用场景中,并且,为用户群体添加标签也是一项人力成本非常高且效率十分低下的工作。因此,上述用户群体的分类方法看似非常有效,实则应用场景十分受限,且所需的人力成本高昂,模型训练效率十分低下。

技术实现思路

[0004]有鉴于此,本申请提供了一种用户群体的分类方法、装置、存储介质及计算机设备,主要目的在于解决现有技术中用户群体的分类方法应用场景受限、所需人力成本高昂和模型训练效率低下的技术问题。
[0005]根据本专利技术的第一个方面,提供了一种用户群体的分类方法,该方法包括:获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
[0006]根据本专利技术的第二个方面,提供了一种用户群体的分类装置,该装置包括:用户数据获取模块,用于获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应
一个行为序列,每个行为序列包含至少一个行为指令;频繁项特征提取模块,用于利用关联分析算法,对行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;相似性特征提取模块,用于通过序列对比算法,计算行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;指令频次特征提取模块,用于对行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;用户群体分类模块,用于采用半监督分类算法,对频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。
[0007]根据本专利技术的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述用户群体的分类方法。
[0008]根据本专利技术的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述用户群体的分类方法。
[0009]本专利技术提供的一种用户群体的分类方法、装置、存储介质及计算机设备,通过对用户群体的各个操作行为和频繁操作行为组合进行提取和频次统计,挖掘了各个用户之间存在的行为习惯属性,通过计算用户群体中各个行为序列之间的序列匹配分值和序列间相似度分值,可以将每个用户与用户群体之间的潜在联系标量化,弥补了无社交用户之间的行为关系属性。基于此,上述方法通过挖掘用户群体中各个用户之间的行为习惯属性、行为关系属性和潜在联系属性,使该方法能够广泛的应用在用户之间无社交关系和用户操作无行为轨迹的应用场景中,从而扩展了用户群体分类方法的使用范围。此外,上述方法通过采用半监督分类算法,减少了用户群体添加分类标签的工作量,有效的提高了用户群体分类模型的训练效率和用户群体的分类效率。
[0010]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0011]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1示出了本专利技术实施例提供的一种用户群体的分类方法的流程示意图;图2示出了本专利技术实施例提供的一种行为序列数据集的样例示意图;图3示出了本专利技术实施例提供的一种频繁指令组合特征表的样例示意图;图4示出了本专利技术实施例提供的一种序列相似性特征表的样例示意图;图5示出了本专利技术实施例提供的一种行为指令频次特征表的样例示意图;图6示出了本专利技术实施例提供的一种用户群体的分类结果的样例示意图;图7示出了本专利技术实施例提供的一种用户群体的分类结果的散点效果图;图8示出了本专利技术实施例提供的一种用户群体的分类方法的流程示意图;图9示出了本专利技术实施例提供的一种用户群体的分类装置的结构示意图。
具体实施方式
[0012]下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0013]在一个实施例中,如图1所示,提供了一种用户群体的分类方法,以该方法应用于服务器等计算机设备为例进行说明,包括以下步骤:101、获取用户群体的行为数据,并对用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集。
[0014]其中,用户群体的行为数据指的是以用户为运营载体的系统或平台通过分析注册信息和日志信息等方式获取到的系统中多个用户(通常指的是大规模数量的用户)的与操作行为相关的数据。其中,操作行为指的是用户在各个操作时间点上触发的操作指令,操作指令例如可以是登录、浏览主页面、浏览子页面,与页面中的某个组件进行交互、针对某个商品进行下单等等。在本实施例中,为了便于数据处理,可以将用户触发的每一个操作指令都转换为指令编码,例如,可以将“登录”指令转换为指令编码“h”,将“浏览主页面”指令转换为指令编码“f”等等。
[0015]具体的,计算机设备可以通过某个系统或平台的数据管理中心获取到待处理的用户群体的行为数据,其中,用户群体主要指的是同一个系统或平台上注册的多个用户,用户群体的行为数据主要包括每个用户的用户名、每个用户的行为指令以及每个行为指令的操作时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户群体的分类方法,其特征在于,所述方法包括:获取用户群体的行为数据,并对所述用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,其中,每个用户名对应一个行为序列,每个行为序列包含至少一个行为指令;利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表;通过序列对比算法,计算所述行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表;对所述行为序列数据集中的行为指令进行频次统计,得到行为指令频次特征表;采用半监督分类算法,对所述频繁指令组合特征表、序列相似性特征表和行为指令频次特征表进行分类分析,得到具有不同类别的用户群体。2.根据权利要求1所述的方法,其特征在于,所述获取用户群体的行为数据,并对所述用户群体的行为数据进行预处理,得到以每个用户的用户名为主体对象的行为序列数据集,包括:获取用户群体的行为数据,其中,所述用户群体的行为数据包括每个用户的用户名、每个用户的至少一个行为指令以及每个行为指令的操作时间;利用预设的字符字典,对每个用户的行为指令进行编码处理;根据所述行为指令的操作时间,对编码后的行为指令进行排序,得到每个用户的行为序列;根据所述每个用户的用户名和所述每个用户的行为序列,生成以每个用户的用户名为主体对象的行为序列数据集。3.根据权利要求1所述的方法,其特征在于,所述利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取和频次统计,得到频繁指令组合特征表,包括:利用关联分析算法,对所述行为序列数据集中的频繁行为指令组合进行提取,得到包含有多个频繁行为指令组合的频繁指令组合列表;对所述频繁指令组合列表中的每个频繁行为指令组合在所述行为序列数据集中出现的频次进行统计,得到以用户名和频繁行为指令组合为字段名的频繁指令组合特征表。4.根据权利要求1所述的方法,其特征在于,所述通过序列对比算法,计算所述行为序列数据集中的各个行为序列之间的序列匹配分值和序列间相似度分值,得到序列相似性特征表,包括:通过全局序列对比算法,计算所述行为序列数据集中的各个行为序列之间的全局序列匹配分值数组和全局序列间相似度分值数组;对所述全局序列匹配分值数组和全局序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到全局序列相似性特征表;通过局部序列对比算法,计算所述行为序列数据集中的各个行为序列之间的局部序列匹配分值数组和局部序列间相似度分值数组;对所述局部序列匹配分值数组和局部序列间相似度分值数组分别进行最大值、最小值、平均值、标准差和方差计算,得到局部序列相似性特征表;以每个用户的用户名作为关联字段,对所述全局序列相似性特征表和所述局部序列相
似性特征表进行关联合并,得到序列相似性特征表。5.根据权利要求1所述的方法,其特征在于,所述对行为序列数据集...

【专利技术属性】
技术研发人员:陶景龙王启凡魏国富殷钱安余贤喆周晓勇梁淑云刘胜马影
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1