一种app用户聚类方法及装置制造方法及图纸

技术编号:17615382 阅读:39 留言:0更新日期:2018-04-04 06:39
本发明专利技术公开了一种app用户聚类方法,按照预设的规则对数据集进行频繁项集的挖掘,然后根据挖掘的频繁项集构建用户关联图谱,最后进行社区发现,将得到的用户关联图谱划分为若干区域,以实现对app用户快速、精准的聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。本发明专利技术无需进行数据集的数值化,能展现用户间的间接关联情况,实现方式简单、聚类准确度高。本发明专利技术还公开了一种app用户聚类装置。

A app user clustering method and device

The invention discloses a app user clustering method, in accordance with the default rules of the data set of frequent itemsets mining, mining frequent itemsets and then according to the construction of user association map, finally the community discovery, the user has been divided into the association graph into several regions, in order to achieve the app users rapid and precise clustering. To develop more precise marketing strategies, improve commodity recommendation, advertising effect. The invention does not need to carry out the numeric data set, and can display the indirect association between the users. The implementation is simple and the clustering accuracy is high. The invention also discloses a app user clustering device.

【技术实现步骤摘要】
一种app用户聚类方法及装置
本专利技术涉及数据处理
,尤其涉及一种app用户聚类方法及装置。
技术介绍
随着移动终端的普及,app(应用软件)的数量也在迅猛增长,目前市场上流行着数以亿计的app,很多使用相同或相似app的用户往往拥有相同的生活习惯或者消费习惯,从某种程度上可以认为他们是相似的用户群体。另外,获得用户终端上所安装的所有app列表也并非难事,部分应用市场以及杀毒软件等均可收集到用户app列表。有鉴于此,很多企业都希望对app用户进行聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。目前,用户聚类的方法有很多,主要取决于数据的维度,例如中国专利技术专利申请CN201410380588中示出了一种基于用户行为的聚类方法。这种方法的前提是具有数值型的用户行为特征,由于用户app列表难以数值化,并且一旦数据量达到上千万甚至上亿时,这种方法的计算量是不可估量的,因此基于数值的聚类方法并不适用。
技术实现思路
本专利技术的目的在于提供一种app用户聚类方法和装置,能实现对app用户快速、精准的聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。为了实现上述目的,本专利技术公开了一种app用户聚类方法,包括以下步骤:获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;按照预设的规则对所述数据集进行频繁项集的挖掘;根据挖掘的频繁项集构建用户关联图谱;进行社区发现,将得到的用户关联图谱划分为若干区域。进一步的,所述用户关联图谱包括节点和边,每一个用户用一节点表示,构成频繁项集的用户之间通过边连接。进一步的,对所述数据集进行频繁项集的挖掘时,安装同一app的不同用户构成一子项集,其中,定义频繁项集的方法如下:其中I表示数据集中的所有用户,X,Y分别为其中的两个不同用户,通过支持度Support(X,Y)来定义二者频繁出现的程度,支持度越大,说明{X,Y}共同出现得越频繁,反之越不频繁;P(X,Y)表示数据集中{X,Y}共同出现的概率,num(X,Y)表示{X,Y}共同出现的次数,num(I)表示用户总数;进一步的,进行频繁项集的挖掘的方法包括Apriori算法或FP-tree算法。进一步的,进行社区发现的方法包括Modularity算法。为了实现上述目的,本专利技术公开了一种app用户聚类装置,所述聚类装置包括数据采集模块、数据挖掘模块、关联图谱生成模块、社区发现模块,其中:所述数据采集模块用于获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;所述数据挖掘模块用于按照预设的规则对所述数据集进行频繁项集的挖掘;所述关联图谱生成模块用于根据挖掘的频繁项集构建用户关联图谱;所述社区发现模块用于进行社区发现,将得到的用户关联图谱划分为若干区域。进一步的,所述用户关联图谱包括节点和边,每一个用户用一节点表示,构成频繁项集的用户之间通过边连接。进一步的,对所述数据集进行频繁项集的挖掘时,安装同一app的不同用户构成一子项集,其中,定义频繁项集的方法如下:其中I表示数据集中的所有用户,X,Y分别为其中的两个不同用户,通过支持度Support(X,Y)来定义二者频繁出现的程度,支持度越大,说明{X,Y}共同出现得越频繁,反之越不频繁;P(X,Y)表示数据集中{X,Y}共同出现的概率,num(X,Y)表示{X,Y}共同出现的次数,num(I)表示用户总数;进一步的,进行频繁项集的挖掘的方法包括Apriori算法或FP-tree算法。进一步的,进行社区发现的方法包括Modularity算法。本专利技术与现有技术相比的有益效果是:本专利技术按照预设的规则对数据集进行频繁项集的挖掘,然后根据挖掘的频繁项集构建用户关联图谱,最后进行社区发现,将得到的用户关联图谱划分为若干区域,以实现对app用户快速、精准的聚类,从而制定更加精准的营销策略,提高商品推荐、广告投放的效果。本专利技术无需进行数据集的数值化,能展现用户间的间接关联情况,实现方式简单、聚类准确度高。附图说明图1为本专利技术一种app用户聚类方法的流程示意图。图2为本专利技术一组频繁项集的结构示意图。图3为本专利技术一种用户关联图谱的结构示意图。图4为本专利技术进行社区发现后得到的用户关联图谱结构示意图。图5为本专利技术一种app用户聚类装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述。本专利技术中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。本专利技术用于对app用户的聚类,这里所需的数据集为大量用户,以及用户所安装的app列表。S01:获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID。由于一般会采用多种途径获取app列表,因此需要对获得的所有用户的app列表进行标准化。表1示出了一种数据集,其包括11个用户ID(user_0、user_1……user_11)及15个app应用的名称(应用a、b、c……、o)的情况,若用户安装了某app,则在相应表格内打钩。需要说明的是,表1只是对数据格式的示例,实际的数据集规模远大于表1所示。另外,在工程应用中,大量的数据是基于分布式的文件存储系统而存储的,表1只是为便于叙述而设。表1abcdefghijklmnouser_0√√√user_1√√user_2√√√√√√√user_3√√user_4√√√user_5√√√√user_6√√√user_7√√√√user_8√√√user_9√√√√user_10√√√√S02:按照预设的规则对所述数据集进行频繁项集的挖掘,即在多个集合中发现频繁同时出现的元素子集的方法。其中,安装同一app的不同用户构成一子项集,在一些实施例中,定义频繁项集的方法如公式(1)所示:(1)其中I表示数据集中的所有用户,X,Y分别为其中的两个不同用户,通过支持度Support(X,Y)来定义二者频繁出现的程度,支持度越大,说明{X,Y}共同出现得越频繁,反之越不频繁;P(X,Y)表示数据集中{X,Y}共同出现的概率,num(X,Y)表示{X,Y}共同出现的次数,num(I)表示用户总数。本专利技术中,频繁项集指的是频繁安装同一app的用户集合,在计算频繁项集之前,需要用户设定一个阈值,来判断共同出现的项集是否频繁出现,若高于阈值,则认为该项集为频繁项集。以表1为例,假设阈值为0.15,其中user_2、user_5同时装有软件a、软件i、软件n这3种app软件,出现频率为3/15=0.2,大于阈值,因此认为项集{user_2,user_5}为频繁项集。,为了实现频繁项集挖掘可以采用Apriori算法、FP-tree(FP:FrequentPattern)等算法。对于小型网络,Apriori算法具有较好效果。对于大型网络,优选FP-tree算法,通过一次数据遍历,可将原始数据中的每个元素压缩到一个紧凑的树形数据结构中。最终通过对FP-tree的递归,实现频繁项集的挖掘。S03:根据挖掘的频繁项集构建用户本文档来自技高网...
一种app用户聚类方法及装置

【技术保护点】
一种app用户聚类方法,其特征在于,所述app用户聚类方法包括以下步骤:获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;按照预设的规则对所述数据集进行频繁项集的挖掘;根据挖掘的频繁项集构建用户关联图谱;进行社区发现,将得到的用户关联图谱划分为若干区域。

【技术特征摘要】
1.一种app用户聚类方法,其特征在于,所述app用户聚类方法包括以下步骤:获取多个用户的app列表,生成数据集,其中,所述数据集包括若干app名称以及安装有相应app的用户ID;按照预设的规则对所述数据集进行频繁项集的挖掘;根据挖掘的频繁项集构建用户关联图谱;进行社区发现,将得到的用户关联图谱划分为若干区域。2.如权利要求1所述的app用户聚类方法,其特征在于,所述用户关联图谱包括节点和边,每一个用户用一节点表示,构成频繁项集的用户之间通过边连接。3.如权利要求1所述的app用户聚类方法,其特征在于,对所述数据集进行频繁项集的挖掘时,安装同一app的不同用户构成一子项集,其中,定义频繁项集的方法如下:其中I表示数据集中的所有用户,X,Y分别为其中的两个不同用户,通过支持度Support(X,Y)来定义二者频繁出现的程度,支持度越大,说明{X,Y}共同出现得越频繁,反之越不频繁;P(X,Y)表示数据集中{X,Y}共同出现的概率,num(X,Y)表示{X,Y}共同出现的次数,num(I)表示用户总数。4.如权利要求1所述的app用户聚类方法,其特征在于,进行频繁项集的挖掘的方法包括Apriori算法或FP-tree算法。5.如权利要求1所述的app用户聚类方法,其特征在于,进行社区发现的方法包括Modularity算法。6.一种app用户聚类装置,其特征在于,所述聚类装置包括数据采集模块、数据挖掘模块、关联图...

【专利技术属性】
技术研发人员:张路潘宣辰
申请(专利权)人:武汉安天信息技术有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1