一种基于DTW-LASSO-谱聚类的消费者聚类方法技术

技术编号：20365213 阅读：31 留言：0更新日期：2019-02-16 17:35

本发明专利技术公开一种基于DTW‑LASSO‑谱聚类的消费者聚类方法，采用DTW对不同待聚类消费者样本的时序特征相似性进行刻画，同时根据不同时间段消费者消费模式变动的特点，使用LASSO对数据所在时间段有效特征进行选择，之后给出了同时段DTW‑谱聚类与异时段DTW‑谱聚类两种实现，用户可根据实际情况自行选择。若用户选择同时段谱聚类，则得到同一时间段内不同消费者样本的有效分类；若用户选择异时段谱聚类，则通过多日聚类结果取交集挖掘一段时间内长久稳固的消费者消费轮动关系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DTW-LASSO-谱聚类的消费者聚类方法
本专利技术涉及一种基于DTW-LASSO-谱聚类的消费者聚类方法，属于数据聚类

技术介绍
身处于信息量爆炸的时代，人类每日都被海量数据所环绕，而消费作为人们最基本的社会活动之一，消费市场相关数据也呈现出爆炸式的增长，而企业面临的一大问题就是如何对消费者进行有效分类，以找到目标消费者。在消费者的海量数据中，时序数据对消费者的分类具有很强的指导作用，其是指同一种现象在不同时刻上的观察值依次排列而成的一组数字序列，如消费者的每日流水、每日在不同领域的花费等等。在医学监测、金融、气象预测等领域，时序数据已被广泛应用，如在医学检测中根据心电信号强弱对患者进行分类并根据以往同类患者情况进行治疗、股票分析师们对股票的收益曲线分析、灾害天气预测等等。但是在消费者分类场景下，数据缺乏真实类别标记，人群的真实分类是不得而知的，于是不能使用传统分类方法，需要使用无监督学习方法对消费者进行聚类，与此同时其数据潜在模式并非一成不变，如用户的消费习惯改变、消费结构的升级等等。传统的基于动态时间弯曲(以下均简记为DTW)度量相似性之后聚类的方法无法捕捉数据潜在模式的变动，且消费者存在相互影响的关系，不同时间段的不同类别消费者存在轮动关系，单纯使用聚类方法无法得到这种关系。
技术实现思路
专利技术目的：考虑到消费者的消费模式易变动，同时部分消费者群体存在轮动关系，本专利技术提出一种基于DTW-LASSO-谱聚类的消费者聚类方法，该方法利用DTW对不同待聚类消费者样本的时序特征相似性进行刻画，同时根据不同时间段聚类的有效时序特征不同...

【技术保护点】
1.一种基于DTW‑LASSO‑谱聚类的消费者聚类方法，其特征在于，包括如下步骤：首先，获取消费者样本库作为训练数据，其中每一个消费者样本都带有多维时序特征，且具有因变量时序数据；接着，在用户选定时间段内，以粗粒度提取所有时序特征曲线，分别计算不同样本之间多维时序特征曲线的DTW值，及样本间因变量时序曲线DTW值，生成不同样本间的距离度量；之后以多维时序特征曲线DTW为自变量，使用LASSO对样本间因变量DTW值进行拟合，筛选出该时间段内有效时序特征，之后以细粒度提取样本的有效特征时序曲线，再计算样本间DTW值并求和后输入到谱聚类算法，得到聚类结果。

【技术特征摘要】
1.一种基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，包括如下步骤：首先，获取消费者样本库作为训练数据，其中每一个消费者样本都带有多维时序特征，且具有因变量时序数据；接着，在用户选定时间段内，以粗粒度提取所有时序特征曲线，分别计算不同样本之间多维时序特征曲线的DTW值，及样本间因变量时序曲线DTW值，生成不同样本间的距离度量；之后以多维时序特征曲线DTW为自变量，使用LASSO对样本间因变量DTW值进行拟合，筛选出该时间段内有效时序特征，之后以细粒度提取样本的有效特征时序曲线，再计算样本间DTW值并求和后输入到谱聚类算法，得到聚类结果。2.如权利要求1所述的基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，消费者样本库是c个样本的多维时序数据X∈Rn×l和对应的因变量时序数据Y∈Rn×1；去除消费者样本库中特征缺失的数据，然后在粗粒度下提取对前q天的时序特征X∈Raq×d，其中每天提取a行数据，每行数据有d维时序特征，这样每个样本有d个长度为aq的时间序列；对因变量Y也做同样的处理，得到1个长度为aq的时间序列；计算各个样本之间对应维度时间序列的动态时间规整距离得到DTW距离矩阵dtw_X∈Rd×c×c，其中dtw_X(i,j,k)表示第j个样本和第k个样本在第i维度上的时间序列的DTW距离；同理也得到dtw_Y∈Rc×c；对dtw_X和dtw_Y进行LASSO拟合，以全特征拟合的均方误差为基准，在不大于其1.2倍的范围内找到筛选特征数量最多的情况，将该情况筛选的m个特征做为本时间段内有效特征。3.如权利要求2所述的基于DTW-LASSO-谱聚类的消费者聚类方法，其特征在于，若用户选择同时段DTW-谱聚类，则根据用户输入的参数t，在细粒度下提取t天的时序特征X∈Rbt×d，其中每天提取b行数据；对于DTW距离矩阵，只保留筛选的特征进而得到dtw_X∈Rm×c×c，之后根据各有效特征等权重求和及LASSO回归权重求和得到两个DTW求和矩阵；用户输入聚类数目k2，用求和后的两个矩阵进行谱聚类，得到平均的...

【专利技术属性】
技术研发人员：詹德川，王嘉时，董坚，
申请(专利权)人：南京大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人