一种基于顾客游逛行为的客群分类方法技术

技术编号:18351695 阅读:43 留言:0更新日期:2018-07-02 01:48
本发明专利技术公开一种基于顾客游逛行为的客群分类方法,包括如下步骤:步骤1,对商场进行区域划分;步骤2,利用wifi定位信息得到顾客每次到访商场在各区域的停留时间数据;步骤3,对步骤2得到的数据进行有效性判断,得到顾客在各区域的有效游逛占比;步骤4,对有效游逛占比进行主成分处理,得到顾客的特征向量;步骤5,对特征向量进行聚类,对聚类结果进行决策树模型的训练与测试,得到分类模型:步骤,6,不同的类别数对应测试结果不一样,处理测试结果,确定最优类别数,对应的分类模型即可对到访商场顾客进行分类。此种方法可利用顾客在商场内的停留行为信息,对顾客进行较好的分类。

【技术实现步骤摘要】
一种基于顾客游逛行为的客群分类方法
本专利技术属于客户分类
,涉及一种商场客群分类方法,特别涉及一种基于顾客游逛行为的客群分类方法。
技术介绍
现有的商场客群分类方法主要有以下几种:1)人工发放调查问卷,询问到访商场的顾客来访商场的时间偏好、来访频次等信息。但局限在于,一般的调查问卷能获得的最多只有数百人的信息,而且需要商场安排一定的预算,这远不足以了解来访一个大型商场的客群分类。2)通过商场的会员信息来对客群分类,用会员每次来消费的信息(包括时间、消费金额)来分群。但是局限性在于,一般商场的会员数相比来访商场的总客流数会很少,一般只有几个百分点。这样的采样率远远达不到能对顾客来访商场有一个充分和准确的了解。
技术实现思路
本专利技术的目的,在于提供一种基于顾客游逛行为的客群分类方法,其可利用顾客在商场内的停留行为信息,对顾客进行较好的分类。为了达成上述目的,本专利技术的解决方案是:一种基于顾客游逛行为的客群分类方法,包括如下步骤:步骤1,对商场进行区域划分;步骤2,利用wifi定位信息得到顾客每次到访商场在各区域的停留时间数据;步骤3,对步骤2得到的数据进行有效性判断,得到顾客在各区域的有效游逛占比;步骤4,对有效游逛占比进行主成分处理,得到顾客的特征向量;步骤5,对特征向量进行聚类,对聚类结果进行决策树模型的训练与测试,得到分类模型:步骤,6,不同的类别数对应测试结果不一样,处理测试结果,确定最优类别数,对应的分类模型即可对到访商场顾客进行分类。上述步骤1中,对于长条形商场,将每一层划分为左中右三个区域。上述步骤3中,对步骤2得到的数据进行有效性判断的具体内容是:去掉各区域内总停留时长小于时间阈值的数据,然后计算出各区域有效停留的门槛时间,将各顾客在每个区域的停留时长与该区域的有效停留门槛时间进行比较,若停留时长大于门槛时间,则判定顾客在该区域的停留为有效游逛。上述计算各区域有效停留的门槛时间的方法是:对每个区域r,所有停留时长的序列为t=(t1,t2,…,tn),计算这个序列的中位值,将该中位值作为该区域有效停留的门槛时间,其中,下标n表示顾客所有做过停留的区域数量。上述步骤4中,对有效游逛占比进行主成分处理,得到顾客的特征向量的具体内容是:设主成分线性方程是:在R语言平台调用包“pscych”,对每位顾客在各区域的有效游逛占比的矩阵X,调用函数fa.parallel(X),得到主成分的个数N;调用该包中的princomp函数,得到主成分与原样本各区域之间线性关系的系数矩阵;调用函数fa.parallel(X,fa="pc",n.iter=100),得到最优的主成分的选取个数m,选取前m个主成分,得到线性方程的系数矩阵α:用顾客在各区域的有效游逛占比矩阵乘以系数矩阵X乘以系数矩阵α,得到每位顾客的主成分所构成的主成分矩阵Z:每一行即为一位顾客在各主成分的数值。上述步骤5中,对特征向量进行聚类的具体内容是:对顾客的特征向量Z调用函数kmeans(Z,centers=k),k为自定义的类别数;把聚类结果匹配到每位顾客在各区域的有效游逛占比矩阵X=x′ij中,形成新的数据结构;计算各类别在每个区域的平均占比,对于平均值小于设定阈值的结果,修正为0。上述步骤6的具体内容是:遍历k,重复步骤5,分别计算每个类别对应的分类模型的准确率,从而确定泛化效果最优的类别数,确认最优分类模型。上述计算分类模型的准确率的方法是:用分类模型classify_model对测试集的数据test_data进行分类,在R语言平台调用predict函数,predict(classify_model,train_data),返回结果为测试集的顾客类别的分类结果classify_result;对比classify_result与test_result,统计加和结果一致的数量A,除以测试集train_data所有顾客数B,得到模型的准确率F=A/B。上述步骤5中,对聚类结果进行决策树模型的训练与测试,得到分类模型的具体内容是:对每位顾客在各区域的有效游逛占比矩阵X=x′ij和与之匹配的聚类结果result进行分类训练,对矩阵X随机抽取50%的数据做训练集train_data,与之对应的result为train_result,剩下的50%的数据做测试集test_data,与之对应的result为test_result,测试时去掉result列;在R语言平台调用包“C50”,调用该包中的C5.0函数,classify_model=C5.0(train_data,train_result,trials=10),即得到分类模型classify_model。采用上述方案后,本专利技术具有以下特点:(1)使用顾客的游逛停留的行为对顾客进行分类;(2)利用主成分分析法得到特征向量来聚类,避免了使用原始数据导致的聚类效果不佳;(3)能对所有有效游逛行为的顾客进行比较好的分类;(4)可以确定泛化结果最好的客群类别数。附图说明图1是各类类型的顾客在各区域访问占比的均值示意图;图2是本专利技术的流程图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。如图2所示,本专利技术提供一种基于顾客游逛行为的客群分类方法,通过对商场进行区域式划分,利用wifi定位信息统计得到顾客历史上每次到访商场在各个区域的停留情况,对停留的有效性进行判别,筛选出满足一定条件的数据,得到顾客在各区域的有效游逛占比;对有效游逛占比进行主成分处理,得到顾客的特征向量,对特征向量进行聚类,对聚类结果进行决策树模型的训练与测试:不同的类别数对应测试结果不一样,处理测试结果,确定最优类别数,对应的分类模型即可对到访商场顾客进行分类,分类结果可以以区域的游逛行为进行比较好的描述。本专利技术具体包括如下步骤:步骤1,对商场进行区域划分。对商场每个楼层,按照通道和中庭等划分为几个区域。一般而言,对于长条形的商场,将每一层划分为左中右三个区域,对于方形的商场,划分成区域会比较麻烦一些,可以以店铺的类型(如餐饮、零售)进行大概划分。需要说明的是,当wifi定位精度不高时,以区域为标识完成对顾客的分类,如果wifi定位的精度足够高,可以到店铺级别,则可以直接以店铺作为标识。步骤2,清洗wifi获得点位数据,得到每位顾客每次到访商场在各区域的停留时间数据。清洗后的数据格式为:mac(顾客唯一标识),日期D,楼层f,区域r,停留时长t(在该区域的最后一个时间戳减去第一个时间戳);步骤3,判断顾客在某个区域游逛是否有效,具体包括如下几个步骤:a)去掉区域的总停留时长小于300秒的数据(这里的300秒可以根据实际情况进行调整);对于每位顾客mac,某次的到访日期D,存在一个不同区域停留时长的序列t=(t1,t2,…,tp),下标p表示顾客mac所有做过停留的区域数量,若则去掉这位顾客mac在日期D的到访记录;b)计算各区域的有效停留的门槛时间对每个区域r,所有停留时长的序列t=(t1,t2,…,tn),下标n表示在该区域r所有停留过的顾客数量;计算这个序列的中位值,在R语言平台调用函数median(t)。若中位值大于1200秒,则该值修正为1200秒,得到每个区域的有效停留的门槛时间tr=(tr1,tr2,…,tr本文档来自技高网...
一种基于顾客游逛行为的客群分类方法

【技术保护点】
1.一种基于顾客游逛行为的客群分类方法,其特征在于包括如下步骤:步骤1,对商场进行区域划分;步骤2,利用wifi定位信息得到顾客每次到访商场在各区域的停留时间数据;步骤3,对步骤2得到的数据进行有效性判断,得到顾客在各区域的有效游逛占比;步骤4,对有效游逛占比进行主成分处理,得到顾客的特征向量;步骤5,对特征向量进行聚类,对聚类结果进行决策树模型的训练与测试,得到分类模型:步骤,6,不同的类别数对应测试结果不一样,处理测试结果,确定最优类别数,对应的分类模型即可对到访商场顾客进行分类。

【技术特征摘要】
1.一种基于顾客游逛行为的客群分类方法,其特征在于包括如下步骤:步骤1,对商场进行区域划分;步骤2,利用wifi定位信息得到顾客每次到访商场在各区域的停留时间数据;步骤3,对步骤2得到的数据进行有效性判断,得到顾客在各区域的有效游逛占比;步骤4,对有效游逛占比进行主成分处理,得到顾客的特征向量;步骤5,对特征向量进行聚类,对聚类结果进行决策树模型的训练与测试,得到分类模型:步骤,6,不同的类别数对应测试结果不一样,处理测试结果,确定最优类别数,对应的分类模型即可对到访商场顾客进行分类。2.如权利要求1所述的一种基于顾客游逛行为的客群分类方法,其特征在于:所述步骤1中,对于长条形商场,将每一层划分为左中右三个区域。3.如权利要求1所述的一种基于顾客游逛行为的客群分类方法,其特征在于:所述步骤3中,对步骤2得到的数据进行有效性判断的具体内容是:去掉各区域内总停留时长小于时间阈值的数据,然后计算出各区域有效停留的门槛时间,将各顾客在每个区域的停留时长与该区域的有效停留门槛时间进行比较,若停留时长大于门槛时间,则判定顾客在该区域的停留为有效游逛。4.如权利要求3所述的一种基于顾客游逛行为的客群分类方法,其特征在于:所述计算各区域有效停留的门槛时间的方法是:对每个区域r,所有停留时长的序列为t=(t1,t2,…,tn),计算这个序列的中位值,将该中位值作为该区域有效停留的门槛时间。5.如权利要求1所述的一种基于顾客游逛行为的客群分类方法,其特征在于:所述步骤4中,对有效游逛占比进行主成分处理,得到顾客的特征向量的具体内容是:设主成分线性方程是:在R语言平台调用包“pscych”,对每位顾客在各区域的有效游逛占比的矩阵X,调用函数fa.parallel(X),得到主成分的个数N;调用该包中的princomp函数,得到主成分与原样本各区域之间线性关系的系数矩阵;调用函数fa.parallel(X,fa="pc",n.iter=100),得到最优的主成分的选取个数m,选取前m个主成分,得到线性方程的系数矩阵α:用顾客在各区域的有效游逛占比矩阵乘以系数矩阵X乘以系数矩阵α,得到每位顾客的主成分所构...

【专利技术属性】
技术研发人员:周建成陆艺李宗昌徐晓冬
申请(专利权)人:南京光普信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1