【技术实现步骤摘要】
一种基于商品社区分类的关联值传播方法、系统及设备
本专利技术涉及数据挖掘领域,尤其涉及一种基于商品社区分类的关联值传播方法、系统及设备。
技术介绍
基于支持度,置信度与提升度的关联推荐,基于支持度,置信度与提升度的关联推荐,是数据挖掘领域常用的传统推荐算法,它基于商品或视频之间“共同出现”的概率与频次而对未来商品或视频是否会被购买或观看行为的算法。基于支持度,置信度与提升度的关联推荐,其本质是基于“点”或几个点连成“线”的推荐方式。从而达到个体或局部最优,但局部最优并非整体最优,很可能出现局部最优是以牺牲整体推荐效果为代价,未从整体“面”上考虑。比如A,B两种商品,关联A购买数量是B的两倍,关联推荐会推荐A,但B商品购买一次后,会连带购买C,D,带来3件商品的销售,此时关联推荐就会有很大局限性,推荐不准确、效率低。
技术实现思路
本专利技术实施例的目的在于提供一种基于商品社区分类的关联值传播方法,旨在解决现有的关联推荐虽局部较优,但整体推荐效果不准确、效率低的问题。本专利技术实施例的第一目 ...
【技术保护点】
1.一种基于商品社区分类的关联值传播方法,其特征在于,所述方法包括:/n统计有向同时购买的商品节点,创建触发与被触发商品节点数据表;/n以商品节点为元素,推导k个元素的集合{G
【技术特征摘要】
1.一种基于商品社区分类的关联值传播方法,其特征在于,所述方法包括:
统计有向同时购买的商品节点,创建触发与被触发商品节点数据表;
以商品节点为元素,推导k个元素的集合{G1,G2,G3……Gk}可划分为由m个子集组成的不同组合的数量计算公式;k表示商品节点总数且k>0;m=1,2,……k;其中,每个组合称为一个商品节点群组;
统计k个元素的集合{G1,G2,G3……Gk}可划分的所有不同商品节点群组的总数量;
计算所有商品节点群组中,每个商品节点群组的关联度;
获取所有商品节点群组中,关联度最大的商品节点群组。
2.如权利要求1所述的基于商品社区分类的关联值传播方法,其特征在于,所述基于商品品类的双层协同过滤推荐方法还包括以下步骤:
获取所述关联度最大的商品节点群组中,每个社区中关联度最大的触发商品节点,也称社区的关联中心节点;
所述商品节点群组内的每个子集称为该商品节点群组的一个社区;
推荐所述关联度最大的商品节点群组中,每个社区的关联中心节点所对应的商品。
3.如权利要求2所述的基于商品社区分类的关联值传播方法,其特征在于,所述基于商品社区分类的关联值传播方法还包括步骤:
根据所述触发与被触发商品节点数据表,构建商品节点连接关系网络;
具体为:以商品为节点,商品之间的连接关系为边,商品之间有向同时购买的频次为边权值,构建商品连接关系网络;若商品节点Gi和Gj之间存在有向同时购买触发关系,则商品节点Gi和Gj之间添加一条连接边。
4.如权利要求1-2任一一项权利要求所述的基于商品社区分类的关联值传播方法,其特征在于,
所述触发与被触发商品节点数据表包括字段:触发商品节点和被触发商品节点。
5.如权利要求4所述的基于商品社区分类的关联值传播方法,其特征在于,所述k个元素的集合{G1,G2,G3……Gk}可划分为由m个子集组成的不同组合的数量计算公式为:T(k,m)=T(k-1,m-1)+m×T(k-1,m);
其中,T(k,m)表示k个元素的集合{G1,G2,G3……Gk}可划分为由m个子集组成的不同组合的数量;
所述统计k个元素的集合{G1,G2,G3……Gk}可划分的所有不同商品节点群组的总数量Q计算公式为:
6.如权利要求5所述的基于商品社区分类的关联值传播方法,其特征在于,所述计算所有商品节点群组中,每个商品节点群组的关联度的方法包括以下步骤:
根据商品节点群组的各社区包含的商品节点,在商品节点数据表中选出各社区包含的触发商品节点与被触发商品节点组,也称关联节点组;
计算所述商品节点群组的各社区内包含的每组关联节点组(Gi,Gj)的关联度;
计算所述各社区的关联度;
计算各商品节点群组的关联度;
所述触发商品节点与被触发商品节点同时属于同一社区;每个关联节点组包括两个商品节点。
7.如权利要求6所述的基于商品社区分类的关联值传播方法,其特征在于,所述计算所述商品节点群组的各社区内包含的每组关联节点组(Gi,Gj)的关联度包括以下步骤:
计算关联规则(Gi=>Gj)对应的支持度、置信度、提升度;
支持度:项集中Gi,Gj同时发生的概率,即同时发生Gi,Gj在总项集I中发生的概率;
Support(Gi=>Gj)=P(Gi∩Gj)/P(I)=num(Gi∩Gj)/num(I);
其中,Support(Gi=>Gj)表示关联规则(Gi=>Gj)的支持度;关联规则(Gi=>Gj)表示购买商品节点Gi触发购买商品节点Gj;P(Gi∩Gj)表示Gi,Gj同时在总项集里出现的概率;Gi,Gj表示项集中的项;I表示总项集;num()表示求总项集里特定项集出现的次数;num(Gi∩Gj)表示含有Gi和Gj的项集的个数(即次数);num(I)表示总项集的个数;i,j表示集合{G1,G2,…Gk}中商品节点的序号,1≤i≤k;1≤j≤k;项集即项的集合,包含K个项的项集称为K项集;
置信度:项集中Gi发生的情况下,Gj发生的概率。表示在发生Gi的项集中,同时会发生Gj的可能性,即Gi和Gj同时发生的个数占仅仅Gi发生个数的比例,公式为:
Confidence(Gi=>Gj)=P(Gj|Gi)=P(Gi∩Gj)/P(Gi);
其中,Confidence(Gi=>Gj)表示关联规则(Gi=>Gj)的置信度;P(Gj|Gi)表示在发生Gi的项集中,同时会发生Gj的概率;P(Gi∩Gj)表示Gi,Gj同时在总项集里出现的概率,P(Gi)表示Gi在总项集里出现的概率;
提升度:表示含有Gi的条件下同时含有Gj的概率,与Gj总体发生的概率之比;
Lift(Gi→Gj)=P(Gj|Gi)/P(Gj);
其中,Lift(Gi=>Gj)表示关联规则(Gi=>Gj)的提升度;P(Gj)表示项集{Gj}在总项集里出现的概率;
对关联规则(Gi=>Gj)的支持度,置信度,提升度进行归一化处理;
归一化处理公式为:
其中,fn分别表示归一化处理后的关联规则(Gi=>Gj)的支持度,置信度,提升度值,分别为f1,f2,f3;f分别表示归一化处理前的关联规则(Gi=>Gj)的支持度,置信度,提升度原始值;
计算关联规则(Gi=>Gj)的关联值,即为关联节点组(Gi,Gj)的关联值;
r=w1f1+w2f2+w3f3
其中,r表示关联值;w1、w2、w3分别为支持度、置信度、提升度的权重;
所述社区的关联度为社区内包含的各组关联节点组的关联度之和;
各商品节点群组的关联度为各商品节点群组中包含的所有社区的关联度之和。
8.如权利要求7所述的基于商品社区分类的关联值传播方法,其特征在于,所述获取关联度最大的商品节点群组中各社区的关联中心节点包括以下步骤:
统计关联度最大的商品节点群组中,每个社区中的触发商品节点;
计算关联度最大的商品节点群组中,每个社区中的触发商品节点的关联度;
所述关联度最大的商品节点群组中,其中一社区的触发商品节点Gi的关联度为该社区中所有关联节点组中,触发商品节点为Gi的所有关联节点组的关联度之和;
获取所述社区中的关联度最大的触发商品节点,即为社区的关联中心节点。
9.一种基于商品社区分类的关联值传播系统,其特...
【专利技术属性】
技术研发人员:慕畅,
申请(专利权)人:深圳市梦网视讯有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。