System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 流失用户识别方法、装置、设备及存储介质制造方法及图纸_技高网

流失用户识别方法、装置、设备及存储介质制造方法及图纸

技术编号:40762868 阅读:3 留言:0更新日期:2024-03-25 20:14
本申请公开了一种流失用户识别方法、装置、设备及存储介质,属于数据处理领域。该方法包括:根据历史数据,获取训练样本,训练样本包括作为流失样本的流失用户的特征向量以及作为非流失样本的非流失用户的特征向量,特征向量用于体现用户的属性特征;基于训练样本以及训练样本之间的相似度参数,生成新的流失样本,以使流失样本的数量与非流失样本的数量满足平衡条件;利用流失样本、非流失样本以及根据获取的错分代价参数计算得到的基尼系数,对分类模型进行训练;利用满足训练要求的分类模型对输入的待识别用户的特征向量进行分类,确定待识别用户为流失用户或非流失用户。根据本申请实施例能够提高识别流失用户的准确率。

【技术实现步骤摘要】

本申请属于数据处理领域,尤其涉及一种流失用户识别方法、装置、设备及存储介质


技术介绍

1、随着使用支付业务的用户群体的不断扩大,用户的需求也不断发生变化。用户中会存在部分的流失用户,为了提高流失用户的用户体验,需要能够及时识别处于衰退期和流失期的用户即流失用户,对流失用户进行分析,从而采取合适的方式提高流失用户的用户体验。

2、但在业务场景中,流失用户与非业务流失用户的分布并不均匀,比例严重失衡,例如,流失用户与非流失用户的比例约为1:100。根据比例失衡的流失用户的样本和非流失用户的样本训练得到的分类模型难以准确地识别出流失用户,导致流失用户识别的准确率较低。


技术实现思路

1、本申请实施例提供一种流失用户识别方法、装置、设备及存储介质,能够提高识别流失用户的准确率。

2、第一方面,本申请实施例提供一种流失用户识别方法,包括:根据历史数据,获取训练样本,训练样本包括作为流失样本的流失用户的特征向量以及作为非流失样本的非流失用户的特征向量,特征向量用于体现用户的属性特征;基于训练样本以及训练样本之间的相似度参数,生成新的流失样本,以使流失样本的数量与非流失样本的数量满足平衡条件;利用流失样本、非流失样本以及根据获取的错分代价参数计算得到的基尼系数,对分类模型进行训练;利用满足训练要求的分类模型对输入的待识别用户的特征向量进行分类,确定待识别用户为流失用户或非流失用户。

3、第二方面,本申请实施例提供一种流失用户识别装置,包括:获取模块,用于根据历史数据,获取训练样本,训练样本包括作为流失样本的流失用户的特征向量以及作为非流失样本的非流失用户的特征向量,特征向量用于体现用户的属性特征;样本生成模块,用于基于训练样本以及训练样本之间的相似度参数,生成新的流失样本,以使流失样本的数量与非流失样本的数量满足平衡条件;模型训练模块,用于利用流失样本、非流失样本以及根据获取的错分代价参数计算得到的基尼系数,对分类模型进行训练;分类模块,用于利用满足训练要求的分类模型对输入的待识别用户的特征向量进行分类,确定待识别用户为流失用户或非流失用户。

4、第三方面,本申请实施例提供一种电子设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面的流失用户识别方法。

5、第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面的流失用户识别方法。

6、本申请实施例提供一种流失用户识别方法、装置、设备及存储介质,能够从历史数据中获取包括流失样本和非流失样本的训练样本,基于训练样本之间的相似度参数,利用训练样本中的流失样本来生成新的流失样本,从而增加训练样本中流失样本的数量,使流失样本和非流失样本在数量上达到均衡,利用数量均衡的流失样本和非流失样本对分类模型进行训练,使得训练得到的分类模型的分类准确率更高。分类模型的训练过程还涉及根据错分代价参数计算得到的基尼系数,根据错分代价参数计算得到的基尼系数的参与可降低分类模型将流失用户识别为非流失用户的概率,进一步提高分类模型的分类准确率,从而提高识别流失用户的准确率。

本文档来自技高网...

【技术保护点】

1.一种流失用户识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于训练样本以及训练样本之间的相似度参数,生成新的流失样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于训练样本以及训练样本之间的相似度参数,将部分非流失样本转换为流失样本,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据流失样本之间的相似度参数,确定流失样本在每个流失样本簇中的最近邻样本以及最邻近样本的k个近邻样本,包括:

5.根据权利要求2所述的方法,其特征在于,所述根据流失样本在每个流失样本簇中的最近邻样本以及最邻近样本的k个近邻样本,生成新的流失样本,包括:

6.根据权利要求1所述的方法,其特征在于,在所述基于训练样本以及训练样本之间的相似度参数,生成新的流失样本之后,还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据历史数据,获取训练样本,包括:

8.根据权利要求1所述的方法,其特征在于,所述错分代价参数包括第一错分代价参数和第二错分代价参数,所述第一错分代价参数表征将流失用户错分类为非流失用户的代价,所述第二错分代价参数表征将非流失用户错分类为流失用户的代价,

9.根据权利要求8所述的方法,其特征在于,所述根据流失样本中的属性特征、非流失样本中的属性特征、所述第一错分代价参数和所述第二错分代价参数,确定属性特征的基尼系数,包括:

10.根据权利要求1所述的方法,其特征在于,还包括:

11.一种流失用户识别装置,其特征在于,包括:

12.一种电子设备,其特征在于,包括:处理器以及存储有计算机程序指令的存储器;

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1至10中任意一项所述的流失用户识别方法。

...

【技术特征摘要】

1.一种流失用户识别方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述基于训练样本以及训练样本之间的相似度参数,生成新的流失样本,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于训练样本以及训练样本之间的相似度参数,将部分非流失样本转换为流失样本,包括:

4.根据权利要求2所述的方法,其特征在于,所述根据流失样本之间的相似度参数,确定流失样本在每个流失样本簇中的最近邻样本以及最邻近样本的k个近邻样本,包括:

5.根据权利要求2所述的方法,其特征在于,所述根据流失样本在每个流失样本簇中的最近邻样本以及最邻近样本的k个近邻样本,生成新的流失样本,包括:

6.根据权利要求1所述的方法,其特征在于,在所述基于训练样本以及训练样本之间的相似度参数,生成新的流失样本之后,还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据历史数据,获...

【专利技术属性】
技术研发人员:胡勍郭一方姜丰田丰查骏
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1