The invention relates to the field of computer technology, in particular to an online user group classification method and device based on clustering and association rules, the method includes determining the user as the clustering center, calculating the similarity of single value discrete features in the user information data set by using a simple matching method, introducing association rules into the calculation process of jacquard distance, and using this method Calculate the similarity of interest features between each user and the user in the cluster center respectively; add the similarity calculated by single value discrete feature and interest feature by weight to obtain the comprehensive user similarity; update all users according to the comprehensive user similarity to determine the center of each cluster, and determine the characteristics of each feature value of the current central user and the last updated central user If it is the same, the user groups of clusters will be output to complete the classification; the invention solves the problem that the multi value discrete features cannot be reasonably updated in the process of updating the cluster center, and improves the quality of user behavior clustering.
【技术实现步骤摘要】
一种基于聚类和关联规则的线上用户群体分类方法及装置
本专利技术涉及计算机
,特别涉及一种基于聚类和关联规则的线上用户群体分类方法及装置。
技术介绍
随着网络技术的不断发展,网络越来越多复杂,网站内容也越来越丰富,通常可以通过确定网络用户的类别来确定目标用户,以实现信息推荐、网络监测和网站优化。对线上用户群体分类的目的是分析核心用户的特征,可以应用于精准营销、商业决策、舆情分析、预警等领域;例如运用在精准营销领域,针对某电商品类进行营销时,需要向目标用户推荐相应的信息,通常将浏览过该类产品的网络用户作为目标用户,从而确定目标用户所属的类别信息,通过类别信息向用户精准推荐商品,通过聚类分析可以发现用户之间隐藏的信息,可应用于构建更详细的用户画像,可以发现隐藏的目标用户,向更多用户进行营销。用户行为分析面临的关键问题是:(1)系统获取的用户行为数据的类型很多,包括数值型、二值型、单值离散型、多值离散型特征等,这些特征对于分析用户行为均具有价值,但由于其结构具有多样性,一般的算法无法进行直接分析;(2)当前对于 ...
【技术保护点】
1.一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,包括以下步骤:/nS1、获取用户群体的用户信息数据集,对用户信息数据集中的兴趣特征进行关联规则挖掘,获得关于用户兴趣的关联规则集;/nS2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;/nS3、利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;/nS4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;/nS5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;/nS6、分别将每个用户分配到与之相似度最高的中心用户的所属 ...
【技术特征摘要】
1.一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,包括以下步骤:
S1、获取用户群体的用户信息数据集,对用户信息数据集中的兴趣特征进行关联规则挖掘,获得关于用户兴趣的关联规则集;
S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;
S3、利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;
S4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;
S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中;
S7、利用改进的中心用户更新方法确定簇的新中心;
S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同,若不相同,返回步骤S3;否则,停止迭代并输出能代表k个用户群体的k个用户数据,每个用户数据为一个类别,完成分类。
2.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,单值离散特征为用户的个人信息;兴趣特征为用户的一个或多个业余娱乐活动以及在该娱乐活动中喜爱的一个或多个项目。
3.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,综合用户相似度表示为:
其中,Dis(a,b)表示用户a与用户b之间的综合用户相似度;Dis(a,b)′表示用户a与用户b之间的单值离散特征相似度;μ为单值离散特征相似度的权重;Dis(a,b)″表示用户a与用户b之间的基于兴趣特征的相似度;为基于兴趣特征的相似度的权重。
4.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的单值离散特征相似度Dis(a,b)′表示为:
其中,Nf(a,b)代表用户a与用户b特征值不同的数量;m为特征总数。
5.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为:
其中,NI(a,b)表示用户a与用户b之间交集的个数;NU(a,b)表示用户a与用户b之间并集的个数;Aa,b为近似交集数的数量。
6.根据权利要求5所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,所述近似交集数的数量Aa,b的值为满足判断条件的所有强关联规则的置信度之和,近似交集数的数量Aa,b的计算过程包括:
S400、采用Apriori算法进行关联规则挖掘,获得关联规则集,关联规则集中的一个关联规则表示为:X→Y;
S401、判断是否已经将关联规则集遍历完,若没有遍历完则执行步骤S402继续遍历关联规则集;若遍历完成,则执行步骤S406;
S402、若用户a和用户b同时包含第t个关联规则的前件,则执行S403;
若用户a包含第t个关联规则的前件、而用户b不包含,且用户a不包含第t个关联规则的后件、而用户b包含,则执行S405;
否则,将0赋给Vt并返回S401,判断下一个关联规则;
S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件,则执行S404;否则,返回S401;
S404、从第t+1个关联规则开始向后遍历,比较第t个关联规则的置信度Ct与第t′个关联规则的置信度Ct′,记录较大的置信度,并删除第t个和第t′个关联规则以及对应子集的关联规则;遍历结束后,将最大置信度赋给Vt,返回S401;
S405、...
【专利技术属性】
技术研发人员:代劲,尹航,夏鲁宏,胡峰,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。