一种基于聚类算法的通信用户消费趋势检测方法技术

技术编号:14120699 阅读:103 留言:0更新日期:2016-12-08 13:40
本发明专利技术应用于运营商的个体客户消费趋势识别领域,提出一种用于通信消费,基于消费时序数据的聚类分析的识别算法。本算法包括:对客户历史消费数据建立消费序列、对客户消费的时序序列进行聚类计算、根据时序聚类结果进行客户的消费趋势判断。本算法能够有效抗异常消费干扰数据,区分出不同消费周期起止时间、差异化的消费水平,为客户消费的趋势分析提供准确的数据依据。所述算法,也能够用于一般性个体、群体的其它方面消费趋势识别,如收入流失、消费异常、消费周期等。

【技术实现步骤摘要】

本使用新型专利涉及通信行业用户消费趋势的特征分析;
技术介绍
有关时间序列的分析被广泛地应用于科学研究、工程应用乃至社会、经济领域;时间序列分析建模基于一定数据假设,比如服从某平稳过程ARMA模型,或者经过差分处理的平稳过程ARIMA模型;但是,这些模型假设很难完全应用于实际的电信客户消费序列分析中;总体上看,客户的通信消费应当是一个稳定的过程,但是由于竞争对手、替代服务、以及其它不确定、突变的因素都不同程度对客户通信消费产生影响;我们提取出一组客户消费序列,以下是通用用户消费趋势的分类以及抽样图形展示:相对稳定的消费序列,如附图1、附图2;趋势稳定但波动较大的消费序列,如附图3、附图4;有明显时序倾向的消费序列,如附图5、附图6;通信用户消费并不符合“高斯独立同分布”(I.I.D)假设,主要原因是:虽然客户消费存一定的随机性,但大多数消费序列都体现出一定连续性,与前一段时间的消费成一定相关性,并非完全的“噪声”分布;采用基于时间滑动窗口的识别手段也不理想,难以确定合适的窗口大小,统计结果表现很大的随机性,影响正常的业务分析;如果简单就“时间”和“月消费额”的二维矢量进行一般性的聚类处理,比如采用K均值算法,可能会出现非严格时序排列的聚类分割,分割的簇在时间上彼此交叉,这样不利于进行时序分析;
技术实现思路
为了解决上述现有技术方案所存在的问题,本专利技术专利提出了能够根据通信用户消费序列对用户消费水平进行聚类细分;本专利技术专利是通过以下技术方案实现的:通信用户消费信息采集模块:从运营商计费系统、或者数据仓库系统,采集用户消费的账单数据,并将消费数据按照用户粒度、月/日粒度进行汇总,每个用户形成一个消费序列;在线序列聚类计算模块:根据采集模块输入的用户序列数据,进行序列聚类,将时间相近、消费差距小的点进行聚集,聚类数量根据一定测度标准,最终形成一定数量的聚类;消费趋势分析模块:对计算形成的聚类簇均值,进行比较,可以进行聚类簇均值的环比,判定用户的消费趋势;同时对于只有1-2个成员的聚类簇,可视为消费异常点;附图说明结合附图,本专利技术专利的技术特征以及优点将会被本领域技术人员更好地理解,其中:图1、图2为相对稳定的客户消费序列;图3、图4为趋势稳定但波动较大的消费序列;图5、图6为有明显时序倾向的消费序列;图7、图8为消费序列进行聚类划分之后,对每个簇的评价,以有效反映客户不同时期的消费特性;图9 为本专利技术专利基于通信消费序列数据聚类识别消费趋势的实施流程图;图10为本专利技术专利基于通信消费序列数据聚类识别消费异常的实施流程图;具体实施方式采用聚类的基本思路,将消费相近的序列聚合成一簇,将不同时期差异化的消费水平,分离出来;为此,参考“层次聚类”分析的基本思路,对消费序列进行聚类处理,将消费相近的一类用户;序列聚类的基本思路是:基于时间顺序,将消费额相近的数据化为一簇,进而通过簇内、簇间的数据分析描述客户的整体消费行为;参考了基于层次聚类的基本思想,具体算法如下:序列聚类算法1.初始化序列:将序列按照时间顺序输入数组A[]中;2.遍历A[],按照某种测度,比较相邻两簇之间的相似性,得出最“近似”的两相邻簇:3.进行簇归并,对归并后的模型进行评价,记入B[]中,如果已经归并到根节点,则转下一步,否则转第步;4.遍历B[],取出模型评价最高的聚类模型,作为实际的聚类模型;其中簇之间的“测度”可以考虑采用“簇之间均值的差异”、“归并后增加的簇内距离和”、“归并后增加的簇内平均距离”、“簇之间分布的相似性”(比如基于某类分布的优先拟合度检验)等;在原型通信用户消费序列聚类建模中,第l、3种方法受异常孤立点的干扰影响较大,倾向于“大簇”之间的归并,这样不利我们的时序分析,根据实际情况,采用第2种方法“归并后增加的簇内距离和”,用于实际的序列聚类建模;模型评价采用基于BIC[4](Bayesian Information Criterion贝叶斯信息准则)描述: (1)其中是对数似然,d是模型自由参数的个数,N是样本数目;假定每个簇内,数据(己剔除孤立点)服从正态分布,求解对数似然,具体如下: (2)、是各个簇i的均值和方差的估计值,自由参数d设定为3M-1,M为簇的数目,是BIC对复杂模型的惩罚项,式(1)综合考虑了模型的数据拟合度和模型复杂性;在所有的聚类组合中,计算各自的BIC,选择其中的极小值;对消费序列进行聚类划分之后,可以通过对每个簇的评价,比如簇大小、簇内均值、方差等,以及簇之间的变化能够有效反映客户不同时期的消费特性;参考附图7、附图8;对客户历史消费序列的聚类建模,能够有效地区分出消费差异显著的不同起止时间段,为“消防趋势”提供直接的数据支持;比如在收入流失鉴别中,通过比较时间最近两“簇”的消费平均值,作为流失评价的依据,比如将最后一“簇”的平均消费值低于前一“簇”平均值30%视为“收入流失”,并将此作为进一步个体流失分析的输入数据依据,参考图9,具体操作步骤101~104所述;除此以外,还能够对通信消费中的异常孤立点进行监控,在上述计算方法中,孤立点是指仅仅包括1-2个点的簇,可以对个体用户的消费孤立点进行进一步分析,参考图10,具体步骤201~204。本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610563695.html" title="一种基于聚类算法的通信用户消费趋势检测方法原文来自X技术">基于聚类算法的通信用户消费趋势检测方法</a>

【技术保护点】
一种用于个体通信消费、基于时序数据的聚类分析的识别方法,能够有效抗异常消费干扰数据,区分出不同消费周期起止时间、差异化的消费水平,为客户消费的趋势分析,如流失分析、异常消费分析等领域提供精确计算的方法,其方法的核心包括:个体通信历史消费数据的采集;个体通信历史消费数据的按照日期粒度的汇总计算加工;个体通信历史消费数据聚类计算,自动形成基于消费的聚类簇,即消费水平显著不同的消费时段;根据消费聚类簇,进行横向比较,确定用户的消费趋势。

【技术特征摘要】
1.一种用于个体通信消费、基于时序数据的聚类分析的识别方法,能够有效抗异常消费干扰数据,区分出不同消费周期起止时间、差异化的消费水平,为客户消费的趋势分析,如流失分析、异常消费分析等领域提供精确计算的方法,其方法的核心包括:个体通信历史消费数据的采集;个体通信历史消费数据的按照日期粒度的汇总计算加工...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:南京坦道信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1