基于分类和聚类结合的宽带用户维挽的实现方法技术

技术编号：33637567 阅读：42 留言：0更新日期：2022-06-02 01:52

本发明专利技术公开了一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，包括步骤：S1：采集用户宽带数据，用于后续判断用户是否会离网；S2：对步骤S1中采集的用户宽带数据进行数据清洗，将用户宽带数据转换成统一的格式后进行分类，筛选出样本数据；S3：对步骤S2中的样本数据进行降维处理，并根据特征重要性筛选数据，再采用重采样筛选数据获得数据集；S4：确定算法模型的评判标准选择算法模型；S5：根据数据集训练模型；S6：采用训练获得的模型拟合新数据并输出结果；S7：对结果进行分析并判断用户是否会离网。该方法实现提前、精准的预测离网的客户，并通过分析离网原理，做出针对性的挽留方案，降低客户的离网率。降低客户的离网率。降低客户的离网率。

全部详细技术资料下载

【技术实现步骤摘要】
基于分类和聚类结合的宽带用户维挽的实现方法

[0001]本专利技术涉及分类算法
，具体涉及一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，主要涉及到决策树分类模型与聚类算法思想，基于聚类思想的提升分类算法精度的方法。

技术介绍

[0002]近些年来，各大运营商为了能吸引更多的用户，推出各种手机流量套餐和宽带套餐。随着国家出台携号转网的政策后。降低客户的流失成了各个运营商的重点。最容易引起客户离网的是客户的投诉。如何降低客户的投诉，降低客户的流失成了各个运营商的重中只重。
[0003]大多数用户的离网，都发生在投诉问题之后。在手机端产生的问题，引发的投诉，往往可以及时有效的解决。大部分的投诉问题都是在运营商一侧可以解决，如有关更换套餐的问题，业务退订的问题。在接到投诉工单时，可以在较短的时间能够处理完成。而基于宽带的投诉则需要较长的时间，宽带的投诉，多数原因是用户无法正常使用网络，用户很难正确的描述出哪方面的原因导致的宽带异常，且运营商也无法指引用户如何排查故障，对于这种情况，通常需要工程师到用户的家中现场排查检测设备。在指定相应的方案。整个过程非常耗时，给客户带来非常不好的体验，严重时就会引起客户的离网。
[0004]因此，如何及时的发现宽带异常的行为，在客户未投诉之前及时的解决客户的宽带问题，提高客户对服务的满意度，减少客户的投诉率，降低客户离网的风险，成为需要重点解决的难题。

技术实现思路

[0005]本专利技术主要解决的问题是提供一种基于分类算法和聚类思想结合的...

【技术保护点】

【技术特征摘要】
1.一种基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，具体包括以下步骤：S1：采集用户宽带数据，用于后续判断用户是否会离网；S2：对步骤S1中采集的用户宽带数据进行数据清洗，将所述用户宽带数据转换成统一的格式后进行分类并进行可视化，筛选出样本数据；S3：对步骤S2中的样本数据进行降维处理，并根据特征重要性筛选数据，获得每个输入特征的平均重要性分数，再采用重采样筛选数据获得数据集；S4：确定算法模型的评判标准，选择算法模型；S5：根据数据集训练模型；S6：采用步骤S5中训练获得的模型拟合新数据并输出结果；S7：对结果进行分析并判断用户是否会离网。2.根据权利要求1所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S1中的用户宽带数据包括基础指标如用户标识，宽带带宽，宽带上行速率，下载速率、是否高频告警ONU、是否链路利用率超过70％、宽带/电视质差类型、宽带营销案剩余到期月份数、用户投诉次数以及用户的状态、用户是否离网的特性信息。3.根据权利要求2所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S2具体包括以下步骤：S21：对步骤S1中采集的用户宽带数据进行数据清洗，对于存在缺失值的，进行缺失处理；S22：将用户宽带数据中的文本数据转换成数值类型数据；S23：将数值类型数据按照离网和未离网用户进行可视化，选择带有用户离网标识字段的用户在离网三个月之前的数据作为样本数据。4.根据权利要求2所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S3具体包括以下步骤：S31：采用相关系数法对数据进行降维处理，对数据中相似的两个特征保留一个特征；S32：对步骤S31处理后的数据采用随机森林的重要性排序进行数据筛选，获得每个输入特征的平均重要性分数以及给定重复的分数分布作为结果；S33：再采用重采样进行数据筛选获得数据集。5.根据权利要求4所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S31采用相关系数法对数据进行降维处理的具体步骤为：S311：首先选择特征向量，计算两个向量的相似程度；具体的公式为：其中r表示相关系数；向量x的均值，向量y的均值，Xi、Yi为单独的特征向量，n为特性向量中数据的个数；S312：若两个特征的相关系数r的绝对值高于设定的阈值，则表示两个特征在数据变化
上有高度相似性，则保留其中一个特征。6.根据权利要求5所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S32的具体步骤为：S321：加载步骤S31处理后的数据，拆分数据特征和数据对应的标签，把数据标签“是否离网”转换成数值类型0，1后，并将其他数据维度也转换成数值类型；S322：采用随机森林模型对数据进行拟合，随机森林模型对数据集进行预测；S323：对数据集中的每个特征均重复步骤S322的处理；S324：对数据集再多次循环步骤S321～S323进行处理，取多次处理的平均值，将每个输入特征的平均重性分数以及给定重复的分数分布作为结果。7.根据权利要求4所述的基于分类算法和聚类思想结合的宽带离网用户维挽的实现方法，其特征在于，所述步骤S33中所述重采样分为三类，包括子采样、降采样和升采样；所述子采样：对整个数据集按照正负样本比例进行随机抽取，抽取的子集作为新的数据集；所述降采样：当正样本数量较少的时候，保留所有的正样本，然后按照正负样本比例算出负样本的数量，并从所有负样本中随机采样出目标数量的负样本，将全部的正样本以及采样后的负样本作为新的数据集；所述升采样：当负样本数量较少的...

【专利技术属性】
技术研发人员：孟维，魏东迎，王计斌，
申请(专利权)人：南京华苏科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人