基于条件WassersteinGAN的电信客户流失预测方法技术

技术编号:36551927 阅读:13 留言:0更新日期:2023-02-04 17:05
本发明专利技术涉及一种基于条件WassersteinGAN的电信客户流失预测方法,属于网络技术领域。采用了基于带梯度惩罚的WassersteinGAN和条件GAN的综合GAN模型来对电信行业的不平衡数据进行处理。这也是首次将GAN用于处理电信行业的数据不平衡问题。同时,本发明专利技术还在CWGAN模型的基础上引入了混合注意力机制CBAM来进一步辅助生成器关注与分类任务相关的特征。之后,在四个常用的机器学习分类器上证明了所采用方法的有效性。用方法的有效性。用方法的有效性。

【技术实现步骤摘要】
基于条件Wasserstein GAN的电信客户流失预测方法


[0001]本专利技术属于网络
,涉及基于条件Wasserstein GAN的电信客户流失预测方法。

技术介绍

[0002]随着5G技术的出现以及电信行业的全球化和进步,数字服务正加速增长,这为电信公司创造了许多机会。CSP(电信运营商)的订户数量和总收入显著增加,同时也导致电信市场的竞争愈加激烈,客户流失率也随之增高。研究表明,客户每流失1%,利润将减少5%

16%,并且发展新客户的成本是保留现有客户的5至10倍。因此,CSP迫切需要制定有效的营销战略,以防止现有客户的流失,而不是发展新用户。而客户流失预测是防止客户流失的重要手段。
[0003]近年来,已经出现了大量关于电信客户流失预测的研究,主要包括数据不平衡问题以及客户流失预测模型的研究。在电信行业中,流失的客户往往只占少数,因此类别分布极不平衡。而传统的分类算法是基于数据分布相对平衡的情况,因此这些算法在面对不平衡的数据分类时往往表现不佳。
[0004]对于数据不平衡问题,流行的对策包括对少数类进行过采样。SMOTE算法作为最流行的过采样方法之一主要是通过在相邻的现有少数类样本之间进行线性插值来生成新的少数类样本。而生成对抗网络(GAN)则是以其强大的拟合数据分布的能力来生成少数类案例。并且已经出现了使用GAN对具有分类变量的结构化数据进行建模的方法。对于预测模型,最常用的技术是线性回归、支持向量机、朴素贝叶斯、决策树,随机森林算法等。由于电信客户数据集的高度不均衡性,通常不能得到令人满意的结果。
[0005]许多模型已经被用于预测电信行业的客户流失。Khan Y等人采用人工神经网络的方法来预测可能流失的客户。而Stehani S等人则是使用主成分分析进行特征提取以提高所选机器学习模型的准确性水平。Almuqren L提出了一种使用社交媒体挖掘来预测电信领域客户流失的新方法。文中使用阿拉伯语Twitter挖掘来预测沙特电信公司流失率的工作。该方法在各种标准指标以及与电信公司提供的真实结果的比较中证明了其效率。此外,Karimi N等人不仅提出了一种客户预测模型,还采用k

means聚类算法对客户进行分组分析关键的流失因素,有助于为可能流失的客户群制定保留策略。
[0006]Wu S等人提出了一个用于客户流失管理的集成客户分析框架,包括数据预处理、探索性数据分析(EDA)、客户流失预测、因素分析、客户细分和客户行为分析。文中采用SMOTE算法来处理数据集不平衡问题,然后使用了六个机器学习分类器来预测客户流失,即逻辑回归、决策树、随机森林、朴素贝叶斯、AdaBoost和多层感知机。最终实验结果表明,AdaBoost和随机森林综合表现更好一些。而Pustokhina I V等人提出了一种改进的综合少数过采样技术(SMOTE)和最优加权极限机器学习(OWELM),称为CCP的ISMOTE

OWELM模型。该模型包括预处理、平衡不平衡数据集和分类。文中采用ISMOTE技术对不平衡数据集进行处理。然后应用OWELM模型计算应用数据的类标签。实验结果表明,ISMOTE

OWELM模型的性能
优于比较的方法。Lalwani P等人应用引力搜索算法来执行特征选择并减少数据集的维度。然后,应用了逻辑回归、朴素贝叶斯、支持向量机、随机森林、决策树等预测模型对训练集进行训练。最后,Adaboost分类器和XGBoost分类器这两种集成学习技术在所有性能指标方面都优于其他算法。
[0007]此外,Sana J K等人提出了一种将数据转换方法与针对CCP问题的机器学习模型相结合的新方法。实验证明,提出的基于数据转换的优化模型显着提高了CCP的性能。

技术实现思路

[0008]有鉴于此,本专利技术的目的在于提供一种基于条件Wasserstein GAN的电信客户流失预测方法。
[0009]为达到上述目的,本专利技术提供如下技术方案:
[0010]基于条件Wasserstein GAN的电信客户流失预测方法,该方法包括以下步骤:
[0011]S1:基于WGANGP和CGAN的综合GAN模型对电信客户数据集进行处理,引入混合注意力机制CBAM使生成器更加关注与目标相关的特征;
[0012]S2:引入混合注意力机制辅助训练生成器;
[0013]S3:采用随机森林、逻辑回归、支持向量机和朴素贝叶斯机器学习分类器进行客户流失预测。
[0014]可选的,所述S1中,所述WGANGP和CGAN衍生自原始的Vanilla GAN,原始GAN是一个通过对抗过程学习生成模型的框架,由生成器G和鉴别器D两部分组成;其中,G的目标是生成与真实数据无法区分的数据样本;D的目标是区分真实数据样本和由G生成的合成样本;其目标函数如公式(1)所示:
[0015][0016]其中P
r
是真实数据分布,P
g
是由x=G(z),z~P(z)隐式定义的生成数据分布,其中z是从任意噪声分布P中采样的;
[0017]在最优判别器下,最小化G的loss等价于最小化P
r
与P
g
之间的JSD;JSD是一个常数;
[0018]WGAN使用Wasserstein

1距离来衡量真实数据分布和生成数据分布之间的距离;Wasserstein

1距离的公式如下:
[0019][0020]其中,Π(P
r
,P
g
)表示真实数据分布P
r
和生成数据分布P
g
的整个可行联合分布集γ(x,y);
[0021]以使用Kantorovich

Rubinstein Duality定理将公式(2)进行转换得公式(3):
[0022][0023]其中,K是一个常数,||f||
L
表示函数f的Lipschitz常数;并且要求||f||
L
≤K,通过将神经网络的权重裁剪到某个范围[

c,c]来满足此约束;至此,WGAN的目标函数如公式(4)所示:
[0024][0025]用梯度惩罚代替权重裁剪,设置一个额外的loss项来实现1

Lipschitz限制,WGANGP的目标函数如公式(5)所示:
[0026][0027]其中λ是梯度惩罚系数,是沿着真实数据分布P
r
和生成数据分布P
g
之间的连线上随机插值采样得到值,ε~Uniform[0,1];
[0028]CGAN能够生成属于特定类别的样本,得到CGAN的目标函数公式如下:
[0029][0030]由于使用WGANGP,鉴别器输出的是生成样本与真实样本之间的Wasserstein

1距离;鉴别器的分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于条件Wasserstein GAN的电信客户流失预测方法,其特征在于:该方法包括以下步骤:S1:基于WGANGP和CGAN的综合GAN模型对电信客户数据集进行处理,引入混合注意力机制CBAM使生成器更加关注与目标相关的特征;S2:引入混合注意力机制辅助训练生成器;S3:采用随机森林、逻辑回归、支持向量机和朴素贝叶斯机器学习分类器进行客户流失预测。2.根据权利要求1所述的基于条件Wasserstein GAN的电信客户流失预测方法,其特征在于:所述S1中,所述WGANGP和CGAN衍生自原始的Vanilla GAN,原始GAN是一个通过对抗过程学习生成模型的框架,由生成器G和鉴别器D两部分组成;其中,G的目标是生成与真实数据无法区分的数据样本;D的目标是区分真实数据样本和由G生成的合成样本;其目标函数如公式(1)所示:其中,x是从真实数据分布pr中采样的样本,P
r
是真实数据分布,P
g
是由z~p(z)隐式定义的生成数据分布,其中z是从任意噪声分布p中采样的;在最优判别器下,最小化G的loss等价于最小化P
r
与P
g
之间的JSD,JSD是一个常数;WGAN使用Wasserstein

1距离来衡量真实数据分布和生成数据分布之间的距离;Wasserstein

1距离的公式如下:其中,Π(P
r
,P
g
)表示真实数据分布P
r
和生成数据分布P
g
的整个可行联合分布集γ(x,y),x和y分别表示从P
r
和P
g
中采样得到的一个真实样本和生成样本;以使用Kantorovich

Rubinstein Duality定理将公式(2)进行转换得公式(3):其中,K是一个常数,||f||
L
表示函数f的Lipschitz常数;并且要求||f||
L
≤K,通过将神经网络的权重裁剪到某个范围[

c,c]来满足此约束;WGAN的目标函数如公式(4)所示:设置一个额外的loss项来实现1

Lipschitz限制,WGANGP的目标函数如公式(5)所示:其中λ是梯度惩罚系数,是沿着真实数据分布P
r
和生成数据分布P
g

【专利技术属性】
技术研发人员:苏畅魏铃林谢显中
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1