一种基于决策树的通信用户退网预测方法技术

技术编号:20004135 阅读:34 留言:0更新日期:2019-01-05 17:16
本发明专利技术涉及一种基于决策树的通信用户退网预测方法,属于人工智能技术领域。本发明专利技术通过计算类标号属性的信息熵、每一个属性划分子集的熵、类标号属性的信息增益,将每个属性按照其信息增益大小排序,获得最大信息增益的属性;其次使用贝叶斯公式,对训练数据集中每个属性取值进行权重判断;最后以最大信息增益的属性创建节点,并以此属性标记,对属性的每个值创建分枝,权重最大的属性值连接下一个属性,通过决策树的构建,建立用户流失预警模型。

A Decision Tree-Based Method for Predicting the Return of Communication Users

The invention relates to a decision tree-based prediction method for the withdrawal of communication users, which belongs to the field of artificial intelligence technology. By calculating the information entropy of class label attributes, the entropy of each attribute subset, and the information gain of class label attributes, the present invention ranks each attribute according to its information gain and obtains the attributes of maximum information gain; secondly, it uses Bayesian formula to judge the weight of each attribute in the training data set; finally, it creates nodes with the attributes of maximum information gain. With this attribute marker, each value of the attribute is branched, and the attribute value with the largest weight is connected to the next attribute. Through the construction of decision tree, an early warning model of user churn is established.

【技术实现步骤摘要】
一种基于决策树的通信用户退网预测方法
本专利技术涉及一种基于决策树的通信用户退网预测方法,属于人工智能

技术介绍
目前,随着通信行业的不断发展,通信行业中的各大运营商之间的竞争越来越激烈,移动客户流失问题一直受到通信运营商的密切关注。在新的移动互联网产业形势之下,除了通信运营商的内部竞争之外,运营商还将面临着来自互联网的外部竞争,新时代下衍生出的移动网络即时通信工具是用户对运营商的提供的业务依赖逐渐减弱。由于目前市面上通信套餐种类繁多、评价标准单一、用户历史数据不完整等特性,用户流失预警问题对于算法的要求很高,传统方法主要包括基本分析法和技术分析法,分别通过市场因素如供求关系和统计学分析来分析用户流失,预测难度较大,且预测结果准确性不高。数据挖掘与大数据的蓬勃发展为运营商用户流失预测提供了大量的技术支持,面对用户特征数据,针对性的建立用户流失预警机制,分析用户流失的因素,建立精准的营销策略,针对薄弱环节采取相应的调整,提高运营商的市场竞争力。
技术实现思路
本专利技术要解决的技术问题是提供一种基于决策树的通信用户退网预测方法,用于解决上述问题。本专利技术的技术方案是:一种基于决策树的通信用户退网预测方法,具体步骤为:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:其中从S集中抽取属性ABCDEFGHJ中的任一一个属性,构成其任一个子集记为Sk(k=A,B,C,D,E,F,G,H,J),在子集Sk中,根据其特征分类分为Skj类(j=1,...,v),其中每一类有Skij(i=1,...,m)个值;按照分类取值可得各个分类的信息熵:Step4、计算每个属性划分子集的熵为如公式(3)所示:Step5、用信息增益来衡量熵的期望减少值,则选择属性k对S进行划分获得的信息增益为如公式(4)所示:Gain(k)=I(T1,T2,...,Tn)-Ent(k)(4)Gain(k)代表已知属性k后导致熵的期望压缩;Step6、使用贝叶斯公式其中(k=A,B,C,D,E,F,G,H,J)对训练数据集中每个属性取值进行权重判断;Step7、构建决策树,将每个属性按照其信息增益大小排序,获得最大信息增益的属性;创建节点,并以此属性标记,对属性的每个值创建分枝;权重最大的属性值连接下一个属性;Step8、根据所构建的决策树,建立用户流失预警模型。进一步地,所述Step3中样本的概率分布越均衡,则信息熵越大,样本集的混杂程度也越高;将信息熵作为训练集纯净度的一个度量,熵越小,纯净度越高。进一步地,所述Step5中Gain(k)代表已知属性k后导致熵的期望压缩;信息熵越小代表节点越纯,基于信息增益的定义,信息增益越大,信息熵的减少量越大,节点趋于纯净,则Gain(k)越大,选择测试属性k对分类提供的信息越多。本专利技术的有益效果是:解决了传统的数据分析工具很难对数据进行深层次的处理,通过数据挖掘分析中的决策树算法与贝叶斯公式相结合的方法,对海量、规模巨大、繁琐、杂乱的数据进行处理,分析具有潜在应用价值的通信用户数据从中对通信用户流失进行预警,提高预测精确度,增加了通信运用商的市场竞争力。附图说明图1是本专利技术步骤流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。实施例1:如图1所示,一种基于决策树的通信用户退网预测方法,通过计算类标号属性的信息熵、每一个属性划分子集的熵、类标号属性的信息增益,将每个属性按照其信息增益大小排序,获得最大信息增益的属性;其次使用贝叶斯公式,对训练数据集中每个属性取值进行权重判断;最后以最大信息增益的属性创建节点,并以此属性标记,对属性的每个值创建分枝,权重最大的属性值连接下一个属性,通过决策树的构建,建立用户流失预警模型。具体步骤为:Step1、数据采集,将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长(min/月)、属性G流量用量(GB/月)、属性H短信用量(条/月)、属性J增值业务用量(元/月);Step2、数据处理,将S集中的每类属性数据,进行分类;具体地,对于属性A按用户年龄分为以下四类(岁):≤10、≤18、≤40、≤60、>60对于属性B按性别划分为以下两类:男、女对于属性C按开户时间划分为以下六类(年):≤3、≤5、≤10、≤15、≤20、>20对于属性D客户等级划分为以下五类:一星级用户、二星级用户、三星级用户、四星级用户、五星级用户对于属性E按每月消费费用划分为以下五类(元/月):≤50、≤100、≤150、≤200、>200对于属性F按通话时长费用划分为以下五类(分钟/月):≤300、≤500、≤1000、≤1500、>2000对于属性G流量用量划分为以下七类(G/月):≤5G、≤10G、≤20G、≤30G、≤40G、≤50G、>50G对于属性H短信用量划分为以下七类(条/月):≤100、≤300、≤500、≤1000、>1000可根据实际情况进行划分,划分规则不限于此;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:其中从S集中抽取属性ABCDEFGHJ中的任一一个属性,构成其任一个子集记为Sk(k=A,B,C,D,E,F,G,H,J),在子集Sk中,根据其特征分类分为Skj类(j=1,...,v),其中每一类有Skij(i=1,...,m)个值;按照分类取值可得各个分类的信息熵:Step4、计算每个属性划分子集的熵为如公式(3)所示:Step5、用信息增益来衡量熵的期望减少值,则选择属性k对S进行划分获得的信息增益为如公式(4)所示:Gain(k)=I(T1,T2,...,Tn)-Ent(k)(4)Gain(k)代表已知属性k后导致熵的期望压缩;Step6、使用贝叶斯公式其中(k=A,B,C,D,E,F,G,H,J)对训练数据集中每个属性取值进行权重判断;Step7、构建决策树,将每个属性按照其信息增益大小排序,获得最大信息增益的属性;创建节点,并以此属性标记,对属性的每个值创建分枝;权重最大的属性值连接下一个属性;Step8、根据所构建的决策树,建立用户流失预警模型。进一步地,所述Step3中样本的概率分布越均衡,则信息熵越大,样本集的混杂程度也越高;将信息熵作为训练集纯净度的一个度量,熵越小,纯净度越高。进一步地,所述Step5中Gain(k)代表已知属性k后导致熵的期望压缩;信息熵越小代表节点越纯,基于信息增益的定义,信息增益越大,信息熵的减少量越大,节点趋于纯净,则本文档来自技高网...

【技术保护点】
1.一种基于决策树的通信用户退网预测方法,其特征在于:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:

【技术特征摘要】
1.一种基于决策树的通信用户退网预测方法,其特征在于:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:其中从S集中抽取属性ABCDEFGHJ中的任一一个属性,构成其任一个子集记为Sk(k=A,B,C,D,E,F,G,H,J),在子集Sk中,根据其特征分类分为Skj类(j=1,...,v),其中每一类有Skij(i=1,...,m)个值;按照分类取值可得各个分类的信息熵:Step4、计算每个属性划分子集的熵为如公式(3)所示:Step5、用信息增益来衡量熵的期望减少值,则选择属性k对S进行划分获得的信息增益为如...

【专利技术属性】
技术研发人员:龙华王瑞邵玉斌杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1