一种用户流失的预测方法及系统技术方案

技术编号:14953140 阅读:84 留言:0更新日期:2017-04-02 10:04
本发明专利技术公开了一种用户流失的预测方法及系统。该方法包括利用历史的用户数据构建数据库;对所述历史的用户数据进行统计处理,得到处理后的用户数据;对所述处理后的用户数据进行机器学习,得到用户流失特征模型;利用所述用户流失特征模型对现有用户数据进行预测,得到现有用户中即将流失的用户以及现有用户即将流失的概率。本发明专利技术提供的用户流失的预测方法及系统,对流失用户数据进行了系统的分析统计,能够预测用户的流失倾向以及流失概率,为对流失用户的准确预测提供有效、科学的参考依据。

【技术实现步骤摘要】

本专利技术涉及广播电视领域,特别是涉及一种用户流失的预测方法及系统
技术介绍
近年来,随着三网融合的加快推进,有线电视市场竞争开始趋于白热化,市场竞争压力越来越大。用户保有始终都是广电行业非常关心的一个主题,然而,在现有技术中,对保有用户和流失用户数据的研究并不系统,对用户流失的预测并不准确与科学。
技术实现思路
本专利技术的目的是提供一种用户流失的预测方法及系统,对流失用户数据进行了系统的研究,能够预测用户的流失倾向以及流失概率,为对流失用户的准确预测提供有效、科学的参考依据。为实现上述目的,本专利技术提供了如下方案:根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术通过对历史用户的收视行为数据、客服业务域数据和BOSS业务域数据的进行系统分析、统计以及机器学习,得到流失用户特征模型和保有用户特征模型,通过利用流失用户特征模型对现有用户的用户数据进行处理,得到现有用户中即将流失的用户以及其即将流失的概率,为即将流失的用户的预测提供科学的数据依据。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例用户流失的预测方法的流程示意图;图2为本专利技术实施例拨打客服电话次数与流失、未流失用户个数的关系示意图;图3为本专利技术实施例宽带使用与流失、未流失用户个数的关系示意图;图4为本专利技术实施例业务类型和流失相关程度强弱的关系示意图;图5为本专利技术实施例决策树规则程序示意图;图6为本专利技术实施例用户流失的预测系统的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的目的是提供一种用户流失的预测方法及系统,对流失用户数据进行了系统的研究,能够预测用户的流失倾向以及流失概率,为对流失用户的准确预测企业下一步发展规划提供有效、科学的参考依据。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1为本专利技术实施例用户流失的预测方法的流程示意图,如图1所示,本专利技术提供的用户流失的预测方法的具体步骤如下:步骤101:利用历史的用户数据构建数据库,所述用户数据包括用户收视行为数据、客服业务域数据和业务运营支撑系统BOSS提供的业务域数据,所述业务运营支撑系统BOSS提供的业务域数据包括用户的自身属性数据,如性别、年龄等信息,所述客服业务域数据包括用户的投诉数据,所述用户收视行为数据包括用户对频道的偏爱情况数据;构建数据库的具体过程为:对历史的用户数据进行清洗、转化,依靠Spark强大的分布式计算能力对海量数据进行清洗,并转化,为构建模型做准备;用户数据来自于广电的多个数据域,主要包括BOSS域、客服域、用户收视行为域。其中BOSS域存有用户基本属性(年龄,地区等信息),同时还包括用户是否流失等状态信心。客服域包括用户投诉的数据。用户行为域包含用户观看节目的时长等信息。这些数据都是结构化数据,清洗与转换多数都是利用SQL语句进行转化。目的是为了构建每个用户的用户特征。如用户A,喜欢看CCTV5,年龄25,投诉了3次,流失了。利用分布式文件系统HDFS、Spark汇编语言对所述清洗、转化后的所述用户数据进行处理和储存。步骤102:对所述历史的用户数据进行统计处理,得到处理后的用户数据,所述统计处理具体为:根据所述用户行为数据构建用户节目偏好矩阵;根据所述业务运营支撑系统BOSS提供的业务域数据、客服业务域数据构建用户基本信息矩阵;统计历史用户中的到期续费用户和流失用户,建立流失用户矩阵和保有用户矩阵;所述用户节目偏好矩阵、用户基本信息矩阵、流失用户矩阵和保有用户矩阵为处理后的用户数据。将流失用户矩阵和保有用户矩阵分别与用户的收视行为以及其他信息相互关联。用户拥有ID是唯一的,利用唯一ID关联多个数据域数据。比如:用户A,年龄25,A地区,喜欢CCTV5流失用户B,年龄30,B地区,喜欢CCTV5流失。用户C,年龄23,A地区,不喜欢CCTV5,没有流失。通过总结规律可以发现喜欢CCTV5的用户流失概率更大一些。如果用户D也喜欢CCTV5,我们则可以近似的预测用户D也会流失。类似的,用户的自身属性与流失的可能性也具有一定的关系。步骤103:对所述处理后的用户数据进行机器学习,得到用户流失特征模型;将所述处理后的用户数据作为所述机器学习的输入,所述机器学习采用决策树算法,得到所述流失用户的特征模型和保有用户的特征模型。机器学习采用的程序语言为R语言和sparkmlib汇编语言。采用决策树算法构造决策树来发现数据中蕴涵的分类规则,如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。C5.0是经典的决策树模型算法之一,可生成多分支的决策树,目标变量为分类变量,使用C5.0算法可以生成决策树或者规则集。C5.0模型根据能够带来的最大信息增益的字段拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个字段进行拆分,这一过程重复进行指导样本子集不能在被拆分为止。最后,重新缉拿眼最低层次的拆分,哪些对模型值没有显著贡献的样本子集被提出或者修剪。C5.0算法选择分支变量的依据:以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。信息熵的下降意味着信息的不确定性下降。信息熵:信息量的数学期望,是心愿发出信息前的平均不确定性,也称先验熵。信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,信息量(单位是bit,对的底数取2):·信息熵H(U)的性质:·H(U)=0时,表示只存在唯一的可能性,不存在不确定性;·如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k,H(U)达到最大,不确定性最大;·P(ui)差别越小,H(U)就越大;P(ui)差别大,H(U)就越小;决策树中熵的应用:设S是一个样本集合,目标变量C有K个分类,freq(Ci,S)表示属于Ci类的样本数,|S|表示样本几何S的样本数。则几何S的信息熵定义为:如果某属性变量T,有N个分类,则属性变量T引入后的条件熵定义为:属性变量T带来的信息增益为:Gain(T)=Info(S)-Info(T)本专利技术取7月产品即将到期用户(68965个用户),按照到期续费和不续费将用户分为正负样本,不续费用户占比为69.83%。将数据分成两部分,70%的用户作为训练集,30%的用户作为测试集,本文档来自技高网...
一种用户流失的预测方法及系统

【技术保护点】
一种用户流失的预测方法,其特征在于,所述方法包括:利用历史的用户数据构建数据库,所述用户数据包括用户收视行为数据、客服业务域数据和业务运营支撑系统BOSS提供的业务域数据,所述业务运营支撑系统BOSS提供的业务域数据包括用户的自身属性数据,所述客服业务域数据包括用户的投诉数据,所述用户收视行为数据包括用户对频道的偏爱情况数据;对所述历史的用户数据进行统计处理,得到处理后的用户数据;对所述处理后的用户数据进行机器学习,得到用户流失特征模型;利用所述用户流失特征模型对现有用户数据进行预测,得到现有用户中即将流失的用户以及现有用户即将流失的概率。

【技术特征摘要】
1.一种用户流失的预测方法,其特征在于,所述方法包括:利用历史的用户数据构建数据库,所述用户数据包括用户收视行为数据、客服业务域数据和业务运营支撑系统BOSS提供的业务域数据,所述业务运营支撑系统BOSS提供的业务域数据包括用户的自身属性数据,所述客服业务域数据包括用户的投诉数据,所述用户收视行为数据包括用户对频道的偏爱情况数据;对所述历史的用户数据进行统计处理,得到处理后的用户数据;对所述处理后的用户数据进行机器学习,得到用户流失特征模型;利用所述用户流失特征模型对现有用户数据进行预测,得到现有用户中即将流失的用户以及现有用户即将流失的概率。2.根据权利要求1所述的预测方法,其特征在于,所述利用历史的用户数据构建数据库,具体包括:对历史的用户数据进行清洗、转化;利用分布式文件系统HDFS、Spark汇编语言对所述清洗、转化后的所述用户数据进行处理和储存。3.根据权利要求1所述的预测方法,其特征在于,所述对所述处理后的用户数据进行机器学习,具体包括:利用R语言和sparkmlib汇编语言对所述处理后的用户数据进行机器学习。4.根据权利要求1所述的预测方法,其特征在于,所述对所述历史的用户数据进行统计处理,具体包括:根据所述用户行为数据构建用户节目偏好矩阵;根据所述业务运营支撑系统BOSS提供的业务域数据、客服业务域数据构建用户基本信息矩阵;统计历史用户中的到期续费用户和流失用户,建立流失用户矩阵和保有用户矩阵;所述用户节目偏好矩阵、用户基本信息矩阵、流失用户矩阵和保有用户矩阵为处理后的用户数据。5.根据权利要求3所述的方法,其特征在于,所述对所述处理后的用户数据进行机器学习,具体包括:将所述处理后的用户数据作为所述机器学习的输入,所述机器学习采用决策树算法,得到所述流失用户的特征模型和保有用户的特征模型。6.一种用户流失的预测系统,其特征在于,数据库构建模块,用于利用...

【专利技术属性】
技术研发人员:孙鹏李承霖
申请(专利权)人:大唐融合通信股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1