基于分类和聚类结合的宽带用户维挽的实现方法技术

技术编号:33637567 阅读:42 留言:0更新日期:2022-06-02 01:52
本发明专利技术公开了一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,包括步骤:S1:采集用户宽带数据,用于后续判断用户是否会离网;S2:对步骤S1中采集的用户宽带数据进行数据清洗,将用户宽带数据转换成统一的格式后进行分类,筛选出样本数据;S3:对步骤S2中的样本数据进行降维处理,并根据特征重要性筛选数据,再采用重采样筛选数据获得数据集;S4:确定算法模型的评判标准选择算法模型;S5:根据数据集训练模型;S6:采用训练获得的模型拟合新数据并输出结果;S7:对结果进行分析并判断用户是否会离网。该方法实现提前、精准的预测离网的客户,并通过分析离网原理,做出针对性的挽留方案,降低客户的离网率。降低客户的离网率。降低客户的离网率。

【技术实现步骤摘要】
基于分类和聚类结合的宽带用户维挽的实现方法


[0001]本专利技术涉及分类算法
,具体涉及一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,主要涉及到决策树分类模型与聚类算法思想,基于聚类思想的提升分类算法精度的方法。

技术介绍

[0002]近些年来,各大运营商为了能吸引更多的用户,推出各种手机流量套餐和宽带套餐。随着国家出台携号转网的政策后。降低客户的流失成了各个运营商的重点。最容易引起客户离网的是客户的投诉。如何降低客户的投诉,降低客户的流失成了各个运营商的重中只重。
[0003]大多数用户的离网,都发生在投诉问题之后。在手机端产生的问题,引发的投诉,往往可以及时有效的解决。大部分的投诉问题都是在运营商一侧可以解决,如有关更换套餐的问题,业务退订的问题。在接到投诉工单时,可以在较短的时间能够处理完成。而基于宽带的投诉则需要较长的时间,宽带的投诉,多数原因是用户无法正常使用网络,用户很难正确的描述出哪方面的原因导致的宽带异常,且运营商也无法指引用户如何排查故障,对于这种情况,通常需要工程师到用户的家中现场排查检测设备。在指定相应的方案。整个过程非常耗时,给客户带来非常不好的体验,严重时就会引起客户的离网。
[0004]因此,如何及时的发现宽带异常的行为,在客户未投诉之前及时的解决客户的宽带问题,提高客户对服务的满意度,减少客户的投诉率,降低客户离网的风险,成为需要重点解决的难题。

技术实现思路

[0005]本专利技术主要解决的问题是提供一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,实现提前、精准的预测离网的客户,分析离网原理,便于针对性的提出挽留方案,降低客户的离网率。
[0006]为了解决上述技术问题,本专利技术采用的技术方案是:该基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,具体包括以下步骤:
[0007]S1:采集用户宽带数据,用于后续判断用户是否会离网;
[0008]S2:对步骤S1中采集的用户宽带数据进行数据清洗,将所述用户宽带数据转换成统一的格式后进行分类并进行可视化,筛选出样本数据;
[0009]S3:对步骤S2中的样本数据进行降维处理,并根据特征重要性筛选数据,获得每个输入特征的平均重要性分数,再采用重采样筛选数据获得数据集;
[0010]S4:确定算法模型的评判标准,选择算法模型;
[0011]S5:根据数据集训练模型;
[0012]S6:采用步骤S5中训练获得的模型拟合新数据并输出结果;
[0013]S7:对结果进行分析并判断用户是否会离网。
[0014]采用上述技术方案,通过带数据采集、数据清洗、特征工程、算法拟合、预测分析等实现提前、精准的预测离网的客户,并通过分析离网原理,做出针对性的挽留方案,降低客户的离网率。
[0015]作为本专利技术的优选技术方案,所述步骤S1中的用户宽带数据包括基础指标如用户标识,宽带带宽,宽带上行速率,下载速率、是否高频告警ONU、是否链路利用率超过70%、宽带/电视质差类型、宽带营销案剩余到期月份数、用户投诉次数以及用户的状态、用户是否离网的特性信息。通过当用户离网状态,可以看出用户在离网前的三个月,宽带的消费信息和正常用户的消费信息已经有了明显的不同;如果只使用当月的数据进行模型训练,在使用模型的时候,模型给出的预测结果,往往是用户即将发生离网的行为,在这种情况下,无论预测结果有多精准,客服人员都很难通过沟通来挽留用户,这个时候用户已经做好了离网的准备;因此为了能够给客服人员留下维系用户的时间,需要将预测在用户的宽带指标发生变化的时候来判断用户在未来三个月是否会离网,找出潜在的离网人员不是最终的目的,最终的目的是降低客户的离网率,在这个前提下需要把要离网的用户提前预测出来,提前的时间越长,挽留的几率就越高。
[0016]作为本专利技术的优选技术方案,所述步骤S2具体包括以下步骤:
[0017]S21:对步骤S1中采集的用户宽带数据进行数据清洗,对于存在缺失值的,进行缺失处理;
[0018]S22:将用户宽带数据中的文本数据转换成数值类型数据;
[0019]S23:将数值类型数据按照离网和未离网用户进行可视化,选择带有用户离网标识字段的用户在离网三个月之前的数据作为样本数据。
[0020]在采集到相关的数据后,需要对数据进行清洗,原始的数据中数据的格式、数据的类型都不尽相同,加上数据的字段缺失导致我们无法直接对数据进行特征工程以及后续的建模操作,需要先把数据转换成统一的格式后才能进行后续的操作。其中步骤S21中对于缺失值的处理方法为:当缺失值的比重小于20%时,可以填充均值,中位数,众数等,来补全缺失值;对于缺失比例大于20%的字段,如果仍然采用填充的方式,会影响数据的真实性,而且还有可能对模型准确性产生影响;因此对于这部分数据,则统一删除这类数据;步骤S23中在数据清洗完成后,数据集中所有的数据都转换成数值类型的数据,把数据按照离网和未离网用户进行可视化,通过对比发现,离网用户在三个月前,消费数据和未离网用户较为相似,后三个月数据差距逐渐增大。因此在筛选数据时,选择带有用户离网标识字段的用户在离网三个月之前的数据作为样本数据。
[0021]作为本专利技术的优选技术方案,所述步骤S3具体包括以下步骤:
[0022]S31:采用相关系数法对数据进行降维处理,对数据中相似的两个特征保留一个特征;
[0023]S32:对步骤S31处理后的数据采用随机森林的重要性排序进行数据筛选,获得每个输入特征的平均重要性分数以及给定重复的分数分布作为结果;
[0024]S33:再采用重采样进行数据筛选获得数据集。
[0025]步骤S3即特征工程是将原始数据准换成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。数据中的特征对预测的模型和获得的结果有着直接的影响。数据特征做的越充分,模型也会更精准;由于数据的
维度过高,如果把所有的数据直接参与训练,则会导致数据量过大,训练的时长增加,维度过高,也会有许多的无关变量,无关变量过多会导致模型不稳定。
[0026]作为本专利技术的优选技术方案,所述步骤S31采用相关系数法对数据进行降维处理的具体步骤为:
[0027]S311:首先选择特征向量,计算两个向量的相似程度;具体的公式为:
[0028][0029]其中r表示相关系数;向量x的均值,向量y的均值,Xi、Yi为单独的特征向量,n为特性向量中数据的个数;
[0030]S312:若两个特征的相关系数r的绝对值高于设定的阈值,则表示两个特征在数据变化上有高度相似性,则保留其中一个特征。为了提高模型的准确性和鲁棒性需要对数据进行降维处理。首先采用相关系数法,相关系数(r)是一种数学距离,可以用来衡量两个向量的相似程度。它起源于余弦定理:cos(A)=(a2+c2‑
b2)/2bc;如果两个向量的夹角为0度(对应r=1),说明它们本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,具体包括以下步骤:S1:采集用户宽带数据,用于后续判断用户是否会离网;S2:对步骤S1中采集的用户宽带数据进行数据清洗,将所述用户宽带数据转换成统一的格式后进行分类并进行可视化,筛选出样本数据;S3:对步骤S2中的样本数据进行降维处理,并根据特征重要性筛选数据,获得每个输入特征的平均重要性分数,再采用重采样筛选数据获得数据集;S4:确定算法模型的评判标准,选择算法模型;S5:根据数据集训练模型;S6:采用步骤S5中训练获得的模型拟合新数据并输出结果;S7:对结果进行分析并判断用户是否会离网。2.根据权利要求1所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S1中的用户宽带数据包括基础指标如用户标识,宽带带宽,宽带上行速率,下载速率、是否高频告警ONU、是否链路利用率超过70%、宽带/电视质差类型、宽带营销案剩余到期月份数、用户投诉次数以及用户的状态、用户是否离网的特性信息。3.根据权利要求2所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S2具体包括以下步骤:S21:对步骤S1中采集的用户宽带数据进行数据清洗,对于存在缺失值的,进行缺失处理;S22:将用户宽带数据中的文本数据转换成数值类型数据;S23:将数值类型数据按照离网和未离网用户进行可视化,选择带有用户离网标识字段的用户在离网三个月之前的数据作为样本数据。4.根据权利要求2所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S3具体包括以下步骤:S31:采用相关系数法对数据进行降维处理,对数据中相似的两个特征保留一个特征;S32:对步骤S31处理后的数据采用随机森林的重要性排序进行数据筛选,获得每个输入特征的平均重要性分数以及给定重复的分数分布作为结果;S33:再采用重采样进行数据筛选获得数据集。5.根据权利要求4所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S31采用相关系数法对数据进行降维处理的具体步骤为:S311:首先选择特征向量,计算两个向量的相似程度;具体的公式为:其中r表示相关系数;向量x的均值,向量y的均值,Xi、Yi为单独的特征向量,n为特性向量中数据的个数;S312:若两个特征的相关系数r的绝对值高于设定的阈值,则表示两个特征在数据变化
上有高度相似性,则保留其中一个特征。6.根据权利要求5所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S32的具体步骤为:S321:加载步骤S31处理后的数据,拆分数据特征和数据对应的标签,把数据标签“是否离网”转换成数值类型0,1后,并将其他数据维度也转换成数值类型;S322:采用随机森林模型对数据进行拟合,随机森林模型对数据集进行预测;S323:对数据集中的每个特征均重复步骤S322的处理;S324:对数据集再多次循环步骤S321~S323进行处理,取多次处理的平均值,将每个输入特征的平均重性分数以及给定重复的分数分布作为结果。7.根据权利要求4所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法,其特征在于,所述步骤S33中所述重采样分为三类,包括子采样、降采样和升采样;所述子采样:对整个数据集按照正负样本比例进行随机抽取,抽取的子集作为新的数据集;所述降采样:当正样本数量较少的时候,保留所有的正样本,然后按照正负样本比例算出负样本的数量,并从所有负样本中随机采样出目标数量的负样本,将全部的正样本以及采样后的负样本作为新的数据集;所述升采样:当负样本数量较少的...

【专利技术属性】
技术研发人员:孟维魏东迎王计斌
申请(专利权)人:南京华苏科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1