The embodiment of the invention provides a method and apparatus for classification of user groups, the method comprising: grasping user identification; to establish the relationship between the common behavior of the user identification, user node graph; at the user nodes in the graph, according to the relationship between the common behavior of identifying one or more core user group; in one or more of the core user groups, according to the relationship between the common behavior into one or more target user groups. On the one hand, to avoid the rules of artificial settings, different user groups have different distribution characteristics, although the individual differences is large, but the potential relationship between users is relatively stable, the user group division method based on graph partition improves accuracy of user groups, on the other hand, through the rough division of core users, greatly reduced the amount of data, and improve the classification efficiency, improve the classification accuracy of user groups.
【技术实现步骤摘要】
一种用户群体的划分方法和装置
本申请涉及计算机处理的
,特别是涉及一种用户群体的划分方法和一种用户群体的划分装置。
技术介绍
随着互联网的高速发展,网上的信息量急剧增加,过量的信息使得人们无法高效地从中获取自己需要的部分,信息的使用效率反而降低。因此,各大网站通常将其面向的用户划分为不同的用户群体,提供更精细化的服务。另外,在某些安全检测情景中,也需要将用户划分不同的用户群体。例如,在电子商务网站中,不法分子通过虚拟交易等途径恶意增加店铺的积分,俗称“刷钻”,为维持秩序,网站需要将“刷钻”的群体识别出来。现在,用户群体划分的方式通常有两种,一种是人工设定规则,另一种是社区发现算法。在人工设定规则的方式中,往往难以覆盖不同群体的不同特性,而且,用户群体的规则繁多、容易发生变化,人工设定的规则难免会有所偏差,从而导致用户群体划分的精确度较低。以识别“刷钻”群体为例,识别“刷钻”群体常用的规则有“用户购买前浏览的同类商品个数”、“用户浏览到下单的时间长度”、“用户购买多个物品的间隔时间”等。不同的“刷钻”群体,往往具有不一样的表现。如一个“刷钻”群体接到需求后直接购买指定的商品;另一个“刷钻”群体,会浏览多个同类商品后,再购买指定的商品。则对于这两个“刷钻”群体,在“用户购买前浏览的同类商品个数”这个规则上的表现不一,难以通过同一个阈值进行识别判断。在社区发现算法中,容易在结果中引入与具体应用场景不符合的数据,导致数据量过大,划分效率较低,用户群体划分的精确度较低。以识别“刷钻”群体为例,在建模时首先对用户间的购买关系进行抽象,简单地认为两个用户共同购买过 ...
【技术保护点】
一种用户群体的划分方法,其特征在于,包括:抓取用户标识;建立所述用户标识之间的共同行为关系,获得用户节点图;在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。
【技术特征摘要】
1.一种用户群体的划分方法,其特征在于,包括:抓取用户标识;建立所述用户标识之间的共同行为关系,获得用户节点图;在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体;在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体。2.根据权利要求1所述的方法,其特征在于,所述建立所述用户标识之间的共同行为关系,获得用户节点图的步骤包括:查找所述用户标识的行为数据;从所述行为数据中识别共同的行为数据;对所述共同的行为数据所属的用户标识建立共同行为关系。3.根据权利要求2所述的方法,其特征在于,所述查找所述用户标识的行为数据的步骤包括:从预置的数据库中提取在预设时间段内、所述用户标识的行为数据。4.根据权利要求2所述的方法,其特征在于,所述对所述共同的行为数据所属的用户标识建立共同行为关系的步骤包括:按照行为数据的类型对所述共同的行为数据配置权重;当所述权重之和大于预设的权重阈值时,对所述共同的行为数据所属的用户标识建立共同行为关系。5.根据权利要求1或2或3或4所述的方法,其特征在于,所述在所述用户节点图中,根据所述共同行为关系识别一个或多个核心用户群体的步骤包括:计算所述用户标识在所述用户节点图中的核心程度值;当所述核心程度值大于预设的核心阈值时,确定所述核心程度值对应的用户标识归属核心用户群体。6.根据权利要求5所述的方法,其特征在于,所述计算所述用户标识在所述用户节点图中的核心程度值的步骤包括:设置当前迭代的全局核心程度值;在所述用户节点图中,针对每个用户标识统计通过共同行为关系相连的用户标识的数量,获得节点度值;在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值;若是,则去除节点度值小于或等于所述全局核心程度值的用户标识;将所述全局核心程度值赋值给在先去除的用户标识,作为先去除的用户标识的核心程度值;在所述用户节点图中,删除与在先去除的用户标识相连的共同行为关系,返回执行所述在所述用户节点图中,判断每个用户标识的节点度值是否小于或等于全局核心程度值的步骤;若否,则返回执行所述设置当前迭代的全局核心程度值的步骤,直至遍历所述用户节点图完成。7.根据权利要求6所述的方法,其特征在于,所述设置当前迭代的全局核心程度值的步骤包括:在首次迭代时,设置初始的全局核心程度值为1;或者,在非首次迭代时,在上一全局核心程度值的基础上加1,作为当前全局核心程度值。8.根据权利要求1或2或3或4或6或7所述的方法,其特征在于,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:在所述一个或多个核心用户群体中,对每个用户标识配置标签,所述标签具有数值;将每个用户标识的标签传递至相连的用户标识;从每个用户标识接收到的标签中,按照标签的数值选取一个标签作为所拥有的标签;判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化;若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;若否,则将拥有相同标签的用户标识划分为目标用户群体。9.根据权利要求1或2或3或4或6或7所述的方法,其特征在于,所述在所述一个或多个核心用户群体中,根据所述共同行为关系划分一个或多个目标用户群体的步骤包括:在所述一个或多个核心用户群体中,对每个用户标识配置标签;将每个用户标识的标签传递至相连的用户标识;从每个用户标识接收到的标签中,按照标签的数量选取一个标签作为所拥有的标签;判断在所述一个或多个核心用户群体中,用户标识所拥有的标签是否发生变化,或者,当前是否小于预设的最大迭代次数;若是,则返回执行所述将每个用户标识的标签传递至相连的用户标识的步骤;若否,则将拥有相同标签的用户标识划分为目标用户群体。10.一种用户群体的划分装置,其特征在于,包括:用户标识获取模块,用于抓取用户标识;用户节点图构建模块,用于建立所述用户标识之间的共同行为关系,获得用户节点图;核心用户群体识别模块,用于在所述用户节点图中,根据所述共同...
【专利技术属性】
技术研发人员:黄光远,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。