基于隐私计算处理多数据源缺失值的填充方法及装置制造方法及图纸

技术编号:36565189 阅读:9 留言:0更新日期:2023-02-04 17:21
本申请公开了一种基于隐私计算处理多数据源缺失值的填充方法及装置,方法包括:向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;通过隐私求交获取缺失样本在不同客群的好坏比;根据缺失样本在不同客群的好坏比调整数据源中各个客群的好环比;根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。本申请提供的基于隐私计算处理多数据源缺失值的填充方法及装置,能够完整的得到建模样本在各个数据源缺失部分的信息丢失,最大程度上还原了缺失客群的风险表现,为后续的建模性能带来较好提升。较好提升。较好提升。

【技术实现步骤摘要】
基于隐私计算处理多数据源缺失值的填充方法及装置


[0001]本申请涉及数据处理
,具体涉及一种基于隐私计算处理多数据源缺失值的填充方法及装置。

技术介绍

[0002]目前,基于多个数据源的融合评分是银行卡中心、消费金融公司和小贷机构等开发的重点方向。由于不同数据源的覆盖率有较大的差别,导致缺失值的处理比较困难,因此缺失值的处理成为了本领域技术人员亟待解决的问题。
[0003]传统做法是,大部分机构会按missing处理,或者根据甲方的y标签通过缺失客群的odds(好坏比)进行对比填充,但是这两种填充方式都会带来一定的不精确性。
[0004]具体的,如果针对某个数据源的缺失按照missing来进行处理,万一缺失的这部分missing具有特殊的含义,例如针对某大型电商平台这个数据源为例,缺失的客户可能早已经被电商平台的风控规则拦截,不具备开通账号的权限,这时候如果针对missing处理,可能会丢失这个用户的风险pattern;如果根据甲方的y标签进行对应处理,这可能是较多甲方的常用操作方法,这样做可以找到处理缺失值的一个通用解法,但是针对后续变换的客群属性,缺少稳定性,并且给后续迭代带来了更高的成本。

技术实现思路

[0005]为此,本申请提供一种基于隐私计算处理多数据源缺失值的填充方法及装置,以解决现有技术存在的填充方式都会带来一定的不精确性的问题。
[0006]为了实现上述目的,本申请提供如下技术方案:
[0007]第一方面,一种基于隐私计算处理多数据源缺失值的填充方法,包括:
[0008]向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
[0009]接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
[0010]通过隐私求交获取缺失样本在不同客群的好坏比;
[0011]根据第一公式调整数据源中各个客群的好环比;
[0012]所述第一公式为:di=ci1*B11+ci2*B12+ci3*B13,其中,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;Bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
[0013]根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
[0014]作为优选,所述根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值,具体为:若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到
最终的缺失值。
[0015]作为优选,ci1+ci2+ci3=1。
[0016]第二方面,一种基于隐私计算处理多数据源缺失值的填充装置,包括:
[0017]数据查询模块,用于向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;
[0018]以及接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;
[0019]隐私查询模块,用于通过隐私求交获取缺失样本在不同客群的好坏比;
[0020]计算模块,根据第一公式调整数据源中各个客群的好环比;
[0021]所述第一公式为:di=ci1*B11+ci2*B12+ci3*B13,其中,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;Bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;
[0022]以及根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。
[0023]作为优选,所述根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值,具体为:若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到最终的缺失值。
[0024]作为优选,ci1+ci2+ci3=1。
[0025]第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
[0026]第四方面,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现基于隐私计算处理多数据源缺失值的填充方法的步骤。
[0027]相比现有技术,本申请至少具有以下有益效果:
[0028]本申请提供了一种基于隐私计算处理多数据源缺失值的填充方法及装置,方法包括:向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;通过隐私求交获取缺失样本在不同客群的好坏比;根据缺失样本在不同客群的好坏比调整数据源中各个客群的好环比;根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。本申请提供的基于隐私计算处理多数据源缺失值的填充方法及装置,能够完整的得到建模样本在各个数据源缺失部分的信息丢失,最大程度上还原了缺失客群的风险表现,为后续的建模性能带来较好提升。
附图说明
[0029]为了更直观地说明现有技术以及本申请,下面给出几个示例性的附图。应当理解,附图中所示的具体形状、构造,通常不应视为实现本申请时的限定条件;例如,本领域技术人员基于本申请揭示的技术构思和示例性的附图,有能力对某些单元(部件)的增/减/归属
划分、具体形状、位置关系、连接方式、尺寸比例关系等容易作出常规的调整或进一步的优化。
[0030]图1为本申请实施例一提供的一种基于隐私计算处理多数据源缺失值的填充方法流程图;
[0031]图2为本申请实施例一提供的一种基于隐私计算处理多数据源缺失值的填充方法框图。
具体实施方式
[0032]以下结合附图,通过具体实施例对本申请作进一步详述。
[0033]在本申请的描述中:除非另有说明,“多个”的含义是两个或两个以上。本申请中的术语“第一”、“第二”、“第三”等旨在区别指代的对象,而不具有技术内涵方面的特别意义(例如,不应理解为对重要程度或次序等的强调)。“包括”、“包含”、“具有”等表述方式,同时还意味着“不限于”(某些单元、部件、材料、步骤等)。
[0034]本申请中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语,通常是为了便于对照附图直观理解,而并非对实际产品中位置关系的绝对限定。在未脱离本申请揭示的技术构思的情况下,这些相对位置关系的改变,当亦视为本申请表述的范畴。
[0035]实施例一
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私计算处理多数据源缺失值的填充方法,其特征在于,包括:向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;接收数据源平台返回的确认授权信息后查询数据,得到数据源的缺失样本和非缺失样本的真实坏率;通过隐私求交获取缺失样本在不同客群的好坏比;根据第一公式调整数据源中各个客群的好环比;所述第一公式为:di=ci1*B11+ci2*B12+ci3*B13,其中,di代表数据源i中调整后的各个客群的好坏比,ci1代表数据源i中的信用卡客群的权重系数,ci2代表数据源i中的消金客群的权重系数,ci3代表数据源i中的小贷客群的权重系数;Bij代表数据源i中缺失样本在不同客群的好坏比,j代表各个客群,j=1or 2or 3,1代表信用卡客群,2代表消金客群,3代表小贷客群;根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值。2.根据权利要求1所述的基于隐私计算处理多数据源缺失值的填充方法,其特征在于,所述根据调整后的各个客群的好坏比和非缺失样本的真实坏率填充数据源的缺失值,具体为:若调整后的各个客群的好坏比等于非缺失样本的真实坏率,则得到最终的缺失值。3.根据权利要求1所述的基于隐私计算处理多数据源缺失值的填充方法,其特征在于,ci1+ci2+ci3=1。4.一种基于隐私计算处理多数据源缺失值的填充装置,其特征在于,包括:数据查询模块,用于向数据源平台发送查询数据授权请求;数据源平台确认授权后返回确认授权信息;以及接收数据源平台返...

【专利技术属性】
技术研发人员:施力沈健刚杜毓淇王欢欢
申请(专利权)人:联洋国融北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1