一种基于用户特征聚类的拒绝样本推断方法和装置制造方法及图纸

技术编号:30822533 阅读:18 留言:0更新日期:2021-11-18 12:08
在本发明专利技术实施例公开了一种基于用户特征聚类的拒绝样本推断方法和装置,该方法包括:采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;将所述申请用户的特征数据转换为特征向量;基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。克服了现有技术中用部分样本估计总体样本标签而导致的标记偏差问题。问题。问题。

【技术实现步骤摘要】
一种基于用户特征聚类的拒绝样本推断方法和装置


[0001]本专利技术涉及数据存储领域,尤其涉及一种基于用户特征聚类的拒绝样本推断方法和装置。

技术介绍

[0002]在信贷风控业务中,用于风控建模的样本一般都是审批通过并放款的样本,因为只有这些样本才有贷后表现数据,才能用于建模,这些样本相对于全量样本(全部申请样本)的占比是比较小的,一般都在10%-30%之间。
[0003]目前常用的拒绝推断的方法主要是基于有表现的样本(通过样本)建模,然后用于拒绝样本的预测,基于预测结果给样本赋予“正常还款”或者“违约还款”的标签,然后再将打标的拒绝样本与通过样本融合,用于最终的建模。
[0004]但是由于模型的应用过程中,一般来说会对全量的样本进行违约概率的预测,所以就会存在幸存者偏差,所以此类方法虽然能近似估计拒绝样本的标签,但还是存在“用部分样本估计总体的”问题,也就是基于这种方法给拒绝样本打的标签的准确性不够精确的问题。

技术实现思路

[0005]有鉴于上述问题,本专利技术实施例提出一种基于用户特征聚类的拒绝样本推断方法和装置,以解决现有技术中用部分样本估计总体样本时,存在偏差的问题。
[0006]本专利技术公开了一种基于用户特征聚类的拒绝样本推断方法,所述方法包括:
[0007]采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
[0008]将所述申请用户的特征数据转换为特征向量;
[0009]基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
[0010]计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
[0011]根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
[0012]可选的,所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心,包括:
[0013]获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
[0014]可选的,所述通过所述其他多个分类簇中各特征向量与所述用信中心之间的距离,预测所述其他多个分类簇中各特征向量的特征标签,包括:
[0015]计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和
与所述第二类簇中心之间的第二余弦距离;
[0016]如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
[0017]可选的,还包括:
[0018]将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
[0019]基于所述训练数据训练用户违约概率预测模型。
[0020]本专利技术另一方面在于提供一种基于用户特征聚类的拒绝样本推断装置,所述装置包括:
[0021]特征数据采集模块,用于采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;
[0022]特征向量转换模块,用于将所述申请用户的特征数据转换为特征向量;
[0023]聚类模块,用于基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;
[0024]类中心获取模块,用于计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;
[0025]预测模块,用于根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。
[0026]可选的,所述类中心获取模块,包括:
[0027]类中心获取子模块,用于获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。
[0028]可选的,所述预测模块,包括:
[0029]余弦距离计算子模块,用于计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;
[0030]标记子模块,用于如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。
[0031]可选的,还包括:
[0032]训练数据得到模块,用于将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;
[0033]用户违约概率预测模型训练模块,用于基于所述训练数据训练用户违约概率预测模型。
[0034]综上所述,在本专利技术实施例中,通过采集预设周期内申请用户的特征数据;其中用户的特征数据包括申请特征及还款特征,并且申请特征包括拒绝申请、通过申请,而还款特征包括正常还款、违约还款;之后将所述申请用户的特征数据转换为特征向量;基于申请用户数据生成的特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,
预测拒绝申请用户的还款特征。实现了通过计算聚类后的拒绝申请用户数据,与通过申请用户数据中正常还款和违约还款类簇中心距离的方式,而为拒绝申请用户进行还款特征预测的目的,进而对所有用户进行实现还款特征标记,克服了现有技术中用部分带标签的拒绝样本估计总体拒绝样本标签而导致的标记存在偏差问题,提高了拒绝用户还款特征预测的精确度。
附图说明
[0035]图1示出了本专利技术实施例一中的一种基于用户特征聚类的拒绝样本推断方法的流程图;
[0036]图2示出了本专利技术实施例一中的另一种基于用户特征聚类的拒绝样本推断方法的流程图;
[0037]图3示出了本专利技术实施例三中的一种基于用户特征聚类的拒绝样本推断装置的结构框图;
[0038]图4示出了本专利技术实施例三中的另一种基于用户特征聚类的拒绝样本推断装置的结构框图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]实施例一
[0041]参照图1,示出了本专利技术实施例一中的一种基于用户特征聚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征聚类的拒绝申请用户推断方法,其特征在于,所述方法包括:采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;将所述申请用户的特征数据转换为特征向量;基于所述特征向量对所述申请用户进行聚类,得到多个分类簇;计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心;根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征。2.根据权利要求1所述的方法,其特征在于,所述计算所述分类簇中还款特征为正常还款的用户的第一类簇中心和还款特征为违约还款的用户的第二类簇中心,包括:获取所述多个分类簇中包含所述还款特征为正常还款的第一类簇,和包含所述还款特征为违约还款的第二类簇;分别获取第一类簇的第一类簇中心和第二类簇的第二类簇中心。3.根据权利要求2所述的方法,其特征在于,所述根据拒绝申请用户所在分类簇与所述第一类簇中心,以及与所述第二类簇中心间的距离,预测拒绝申请用户的还款特征,包括:将携带有所述申请特征为拒绝申请的所述申请用户确定为拒绝申请用户;计算所述拒绝申请用户所在分类簇与所述第一类簇中心的第一余弦距离,以及和与所述第二类簇中心之间的第二余弦距离;如果所述第一余弦距离大于所述第二余弦距离,则对所述拒绝申请用户添加违约还款标签,否则对所述拒绝申请用户添加正常还款标签。4.根据权利要求3所述的方法,其特征在于,还包括:将包含所述正常还款标签和所述违约还款标签的所述拒绝申请用户的特征数据,与携带所述通过申请特征的所述申请用户的特征数据合并为训练数据;基于所述训练数据训练用户违约概率预测模型。5.一种基于用户特征聚类的拒绝样本推断装置,其特征在于,所述装置包括:特征数据采集模块,用于采集预设周期内申请用户的特征数据;所述特征数据包括申请特征及还款特征;所述申请特征包括拒绝申请、通过申请,所述还款特征包括正常还款、违约还款;特征向量转换模块,用于将...

【专利技术属性】
技术研发人员:宋万鹏
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1