The invention relates to a decision tree-based prediction method for the withdrawal of communication users, which belongs to the field of artificial intelligence technology. By calculating the information entropy of class label attributes, the entropy of each attribute subset, and the information gain of class label attributes, the present invention ranks each attribute according to its information gain and obtains the attributes of maximum information gain; secondly, it uses Bayesian formula to judge the weight of each attribute in the training data set; finally, it creates nodes with the attributes of maximum information gain. With this attribute marker, each value of the attribute is branched, and the attribute value with the largest weight is connected to the next attribute. Through the construction of decision tree, an early warning model of user churn is established.
【技术实现步骤摘要】
一种基于决策树的通信用户退网预测方法
本专利技术涉及一种基于决策树的通信用户退网预测方法,属于人工智能
技术介绍
目前,随着通信行业的不断发展,通信行业中的各大运营商之间的竞争越来越激烈,移动客户流失问题一直受到通信运营商的密切关注。在新的移动互联网产业形势之下,除了通信运营商的内部竞争之外,运营商还将面临着来自互联网的外部竞争,新时代下衍生出的移动网络即时通信工具是用户对运营商的提供的业务依赖逐渐减弱。由于目前市面上通信套餐种类繁多、评价标准单一、用户历史数据不完整等特性,用户流失预警问题对于算法的要求很高,传统方法主要包括基本分析法和技术分析法,分别通过市场因素如供求关系和统计学分析来分析用户流失,预测难度较大,且预测结果准确性不高。数据挖掘与大数据的蓬勃发展为运营商用户流失预测提供了大量的技术支持,面对用户特征数据,针对性的建立用户流失预警机制,分析用户流失的因素,建立精准的营销策略,针对薄弱环节采取相应的调整,提高运营商的市场竞争力。
技术实现思路
本专利技术要解决的技术问题是提供一种基于决策树的通信用户退网预测方法,用于解决上述问题。本专利技术的技术方案是:一种基于决策树的通信用户退网预测方法,具体步骤为:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;S ...
【技术保护点】
1.一种基于决策树的通信用户退网预测方法,其特征在于:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:
【技术特征摘要】
1.一种基于决策树的通信用户退网预测方法,其特征在于:Step1、数据采集:将样本通信用户基础信息与用户消费行为放入训练数据集合S中;其中通信用户基础信息包括:用户号码,属性A用户年龄,属性B性别、属性C开户时间、属性D客户等级、属性E每月消费费用;用户消费行为包括:属性F通话时长、属性G流量用量、属性H短信用量、属性J增值业务用量;Step2、数据处理:将S集中的每类属性数据,进行分类;Step3、将类标号特征值分为n类,其中类标号特征值有t个值,tu为每类所含样本个数,对于给定的类标号特征值,信息熵可定义为如公式(1)所示:其中从S集中抽取属性ABCDEFGHJ中的任一一个属性,构成其任一个子集记为Sk(k=A,B,C,D,E,F,G,H,J),在子集Sk中,根据其特征分类分为Skj类(j=1,...,v),其中每一类有Skij(i=1,...,m)个值;按照分类取值可得各个分类的信息熵:Step4、计算每个属性划分子集的熵为如公式(3)所示:Step5、用信息增益来衡量熵的期望减少值,则选择属性k对S进行划分获得的信息增益为如...
【专利技术属性】
技术研发人员:龙华,王瑞,邵玉斌,杜庆治,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:云南,53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。