一种换电套餐用户逾期的预测方法、系统、装置及介质制造方法及图纸

技术编号:39067553 阅读:16 留言:0更新日期:2023-10-12 20:00
本发明专利技术公开了一种换电套餐用户逾期的预测方法、系统、装置及介质,包括:获取用户的历史样本集;基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。本申请通过扩展随机数范围,可以增加样本集的多样性,避免样本过于集中而导致的重复数据,有效地减少重复数据的产生,并降低合成边界噪声样本的数量。同时通过融合模型结构,利用不同分类模型学习不同的信息,进而提高预测的准确性和稳定性。高预测的准确性和稳定性。高预测的准确性和稳定性。

【技术实现步骤摘要】
一种换电套餐用户逾期的预测方法、系统、装置及介质


[0001]本申请涉及一种大数据处理
,尤其涉及一种换电套餐用户逾期的预测方法、系统、装置及介质。

技术介绍

[0002]目前,预测用户购买的换电套餐到期后长期不归还电池也不续费导致的长期逾期问题,有两种方法可供选择。一种是基于规则的方法,主要依赖用户的行为和信用信息,如长期未还电天数和芝麻信用分数。但这种方法只适用于简单场景,对于复杂场景的预测效果有限。另一种是基于有监督模型分类的方法,需要通过机器学习训练模型来进行预测。该方法可以根据用户的行为数据判断其是否会长期逾期,并给出逾期概率。然而,这种方法受数据不平衡问题的影响,因为逾期用户的比例往往较低,导致数据的分布不平衡。
[0003]为了解决这个问题,常用的方法是使用SMOTE算法来处理数据不平衡,但该算法可能会放大数据中的噪声问题。此外,单个机器学习模型在实际使用中还存在预测精度和稳定性不高的问题。
[0004]因此,需要减少数据不平衡问题,并提高预测模型的精度和稳定性。

技术实现思路

[0005]本申请的目的在于提供一种换电套餐用户逾期的预测方法、系统、装置及介质,以至少解决相关技术中涉及的数据不平衡和单个模型预测精度不够高的问题。
[0006]本申请第一方面提供一种换电套餐用户逾期的预测方法,预测方法包括:获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据;基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0007]在一个实施例中,基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集,包括:根据历史样本集进行聚类处理,得到初始簇集合,其中,初始簇集合中的每个初始簇包括初始少数样本集和初始多数样本集;基于初始少数类样本集和初始多数类样本集,确定初始簇集合中每个初始簇的不平衡率;根据不平衡率和预先设定的阈值区间对初始簇集合进行筛选,确定目标簇集合;基于目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集。
[0008]在一个实施例中,基于目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集,包括:基于目标少数类样本集中样本之间的平均距离,确定目标簇集合中每个目标簇的采样权重;根据采样权重,确定相对应的目标簇中新样本的目标数量;在每个目标簇中根据中心点样本和其他样本,利用预设差值模型生成目标数量的新样本,得到新样本集。
[0009]在一个实施例中,基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型,包括:基于数据集对融合模型中的机器学习模型进行训练,确定目标最佳模型;基于数据集在最佳模型上采用五折交叉验证,确定新数据集;基于新数据集对融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到预测模型。
[0010]在一个实施例中,基于数据集对融合模型中的机器学习模型进行训练,确定目标最佳模型,包括:根据数据集中的训练集训练机器学习模型,采用数据集中的验证集进行评估,根据评估结果确定最佳模型;基于贝叶斯优化算法对最佳模型进行优化处理,得到目标最佳模型。
[0011]在一个实施例中,新数据集包括新训练集、新验证集和新测试集;基于新数据集对融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到预测模型,包括:根据新训练集训练逻辑回归模型,采用新测试集进行评估,并根据评估结果采用新验证集进行模型调参,直至满足预设条件,得到预测模型。
[0012]在一个实施例中,行为数据样本包括骑行距离、换电次数、最近一次换电的时间间隔中的至少一种;消费数据样本包括用户逾期前购买的最后一笔换电套餐的金额和天数、以及购买换电套餐是否使用优惠券中的至少一种;信用数据样本包括用户是否有免押资格、芝麻信用分、历史逾期状况中的至少一种。
[0013]本申请第二方面提供一种换电套餐用户逾期的预测系统,预测系统包括:历史样本集获取模块,用于获取用户的历史样本集,其中,历史样本集包括用户的行为数据、消费数据和信用数据;新样本集获取模块,用于基于历史样本集进行聚类处理确定初始簇集合,对初始簇集合中的每个初始簇进行上采样,确定新样本集;预测模型获取模块,用于基于新样本集和历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;用户逾期结果获取模块,用于根据预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。
[0014]本申请第三方面提供一种换电套餐用户逾期的预测装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,一个或多个处理器执行可执行代码时,用于实现上
述任一项的换电套餐用户逾期的预测方法。
[0015]本申请第四方面提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述任一项的换电套餐用户逾期的预测方法。
[0016]本申请实施例提供的一种换电套餐用户逾期的预测方法、系统、装置及介质至少具有以下技术效果。
[0017]本申请通过扩展随机数范围,可以增加样本集的多样性,避免样本过于集中而导致的重复数据,有效地减少重复数据的产生,并降低合成边界噪声样本的数量。同时通过融合模型结构,利用不同分类模型学习不同的信息,进而提高预测的准确性和稳定性。本申请尤其在SMOTE算法中,扩展随机数范围并使用softmax函数,可以更好地控制合成样本的分布,减少重复数据的产生,降低噪声样本的数量,并提高机器学习模型的准确性和稳定性。
[0018]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0019]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为SMOTE算法可能会在多数类样本区域生成噪声样本的示意图;图2为本申请实施例提供的换电套餐用户逾期的预测方法的流程示意图;图3为本申请实施例提供的上采样确定新样本集的流程示意图;图4为本申请实施例提供的确定新样本集的流程示意图;图5为本申请实施例提供的步骤S103确定新样本集的流程示意图;图6为本申请实施例提供的确定目标最佳模型的流程示意图;图7为本申请实施例提供的得到预测模型的流程示意图;图8为本申请实施例提供的另一种换电套餐用户逾期的预测方法的流程示意图;图9为本申请实施例提供的换电套餐用户逾期的预测系统的框图;图10为本申请实施例提供的电子设备的内部结构示意图。
具体实施方式
[0020]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种换电套餐用户逾期的预测方法,其特征在于,所述预测方法包括:获取用户的历史样本集,其中,所述历史样本集包括用户的行为数据、消费数据和信用数据;基于所述历史样本集进行聚类处理确定初始簇集合,对所述初始簇集合中的每个初始簇进行上采样,确定新样本集;基于所述新样本集和所述历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型;根据所述预测模型,对待预测用户数据进行用户逾期预测,得到换电套餐用户逾期结果。2.根据权利要求1所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述历史样本集进行聚类处理确定初始簇集合,对所述初始簇集合中的每个初始簇进行上采样,确定新样本集,包括:根据所述历史样本集进行聚类处理,得到初始簇集合,其中,所述初始簇集合中的每个所述初始簇包括初始少数样本集和初始多数样本集;基于所述初始少数类样本集和所述初始多数类样本集,确定所述初始簇集合中每个初始簇的不平衡率;根据所述不平衡率和预先设定的阈值区间对所述初始簇集合进行筛选,确定目标簇集合;基于所述目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集。3.根据权利要求2所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述目标簇集合中目标少数类样本集的中心点样本和其他样本,确定新样本集,包括:基于所述目标少数类样本集中样本之间的平均距离,确定所述目标簇集合中每个目标簇的采样权重;根据所述采样权重,确定相对应的所述目标簇中新样本的目标数量;在每个所述目标簇中根据所述中心点样本和其他样本,利用预设差值模型生成所述目标数量的新样本,得到新样本集。4.根据权利要求1所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述新样本集和所述历史样本集合并得到的数据集,对预先构建的融合模型进行训练,得到预测模型,包括:基于所述数据集对所述融合模型中的机器学习模型进行训练,确定目标最佳模型;基于所述数据集在所述最佳模型上采用五折交叉验证,确定新数据集;基于所述新数据集对所述融合模型中的逻辑回归模型进行训练,直至满足预设条件,得到所述预测模型。5.根据权利要求4所述的换电套餐用户逾期的预测方法,其特征在于,所述基于所述数据集对所述融合模型中的...

【专利技术属性】
技术研发人员:李朝黄家明肖劼胡始昌杨建燮杨斌
申请(专利权)人:杭州宇谷科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1