基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统技术方案

技术编号:25804894 阅读:21 留言:0更新日期:2020-09-29 18:39
本发明专利技术公开了基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统,用于解决现有技术的反欺诈模型的数据隐私保护效果差以及反欺诈预测准确率较低的问题,包括数据采集模块、数据分析模块、构建模型模块和模型预测模块;所述数据采集模块用于汇集多家银行的数据共同建模并将其发送至数据分析模块;所述构建模型模块用于通过逻辑回归的算法对海量用户行为特征和标签进行分类并发现欺诈行为共有的用户行为特征及输出用户的欺诈概率;本发明专利技术基于数据隐私保护以及结合应用逻辑回归建模得到对应的模型,将新样本直接带入模型中计算欺诈概率,从而在数据隐私保护效果好的基础上,提高反欺诈预测准确率。

【技术实现步骤摘要】
基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统
本专利技术涉及信贷反欺诈
,具体为基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统。
技术介绍
随着经济和社会的不断发展,信贷业务已深入社会各阶层,影响着企业、机构、组织的运转以及个人的生活,同时信贷反欺诈技术也成为了信贷业务正常运转的基础。为了降低信贷风险,可以直接利用现有的信用评分模型对信贷申请人进行评分,根据评分来量化借贷申请人的信用风险或还款能力。但是,这对于专门通过欺诈手段来进行骗贷等操作的人来说,可能起不到实际作用,因为他们可能通过伪造或屏蔽数据等方式来获得较高的信用评分。同此,为了进行有效的反欺诈,现有技术通过建立专门的反欺诈模型对信贷申请人进行欺诈评分,然而现有技术的反欺诈模型的数据隐私保护效果差以及反欺诈预测准确率较低。
技术实现思路
本专利技术的目的就在于为了现有技术的反欺诈模型的数据隐私保护效果差以及反欺诈预测准确率较低的问题,而提出基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统;本专利技术基于数据隐私保护以及结合应用逻辑回归建模得到对应的模型,将新样本直接带入模型中计算欺诈概率,从而在数据隐私保护效果好的基础上,提高反欺诈预测准确率。本专利技术的目的可以通过以下技术方案实现:基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统,包括数据采集模块、数据分析模块、构建模型模块和模型预测模块;所述数据采集模块用于汇集多家银行的数据共同建模并将其发送至数据分析模块;其中数据包括小微商户的个人身份信息、银行账户信息和交易信息;将建模发起方银行标记为发起银行,发起银行用符合guest表示;剩余的银行标记为其他银行,其他银行用符号host表示,并在其他银行内的其中一家银行搭建中心节点;中心节点用arbiter表示;所述数据分析模块用于对银行的数据进行分析,具体分析步骤为:步骤一:获取发起银行和其他银行相同的共同特征,并将共同特征用作建模特征;步骤二:分别进行数据融合,将相关联的个人信息和交易类信息融合成一张表;步骤三:对数据清洗,将明显错误和重复的数据去除掉;步骤四:对不同的特征做相关矩阵分析并可视化;步骤五:填充缺失值;所述构建模型模块用于通过逻辑回归的算法对海量用户行为特征和标签进行分类并发现欺诈行为共有的用户行为特征及输出用户的欺诈概率;具体步骤为:S1:发起银行和其他银行分别初始化各自模型,即特征参数的系数,w=随机产生的0-1之前均匀分布的数,常数项C=1;设置参数:分别设置循环最大迭代次数、学习率和正则化项系数;S2:中心节点创建公钥和私钥,并将公钥发送给其他银行,其他银行将结果发送给中心节点;S3:开始循环训练:S31:将所有样本分批,得到分批数据,分批数据包括每批数据量大小和数据批数;S32:发起银行和其他银行分别将各自的权重w发送给中心节点;其中,其他银行先加密再发送至给中心节点;S33:中心节点对其他银行发送的权重w进行解密,将得到的发起银行和其他银行分别将各自的权重w并聚合,并将聚合的权重发送给发起银行和其他银行,其中不加密的聚合权重发送给发起银行,加密的聚合权重发送给其它银行;S34:发起银行计算自己方的损失,损失函数公式如下:发起银行的损失函数的L2正则化项为:发起银行计算加入正则化项后的总损失:Loss=(Loss+norm)/nS35:发起银行将损失函数值Loss发送给中心节点,总损失final_loss=guest的损失;S36:中心节点计算停止迭代标签:如果获取到的总损失final_loss<阈值,则停止迭代标签flag等于True,否则flag=False;S37:中心节点将计算得到的停止迭代标签flag发送给发起银行和其它银行;S38:发起银行和其它银行根据flag判断是否停止迭代,如果flag等于True,那么退出循环;S39:根据S31分批后的批次进行批量数据循环:S40:发起银行和其它银行;分别计算各自的梯度,发起银行直接用原始梯度公式计算,而其它银行采用的是原始公式的泰勒展开式;S41:发起银行和其它银行分别给梯度添加L2正则化项,正则化后的梯度如下:gradneω=gradω+α*W=[gradω1+W1,gradω2+W2,..,gradωJ+WJ,gradω0],发起银行和其它银行分别更新各自的权重:w=w-lr*grad;S42:模型训练完,中心节点和发起银行得到模型结果,即变量系数W,其它银行无法获取模型结果;所述构建模型模块将变量系数W发送至模型预测模块,所述模型预测模块用于发起银行的新样本进行预测,具体为:将新样本直接带入模型中计算欺诈概率p,当欺诈概率大于设定阈值,则判断该用户为欺诈用户,并将其发送至发起银行的电脑终端进行显示。优选的,所述聚合的公式如下:所述原始公式为:常数项梯度为:泰勒展开式公式如下:gradω=gradω0*X;总梯度grad=[gard_w0,grad_w]/n。优选的,所述中心节点和其他银行均使用paillier加密发送。与现有技术相比,本专利技术的有益效果是:1、本专利技术数据采集模块汇集多家银行的数据共同建模并将其发送至数据分析模块;数据分析模块用于对银行的数据进行分析,获取发起银行和其他银行相同的共同特征,并将共同特征用作建模特征;分别进行数据融合,将相关联的个人信息和交易类信息融合成一张表;对数据清洗,将明显错误和重复的数据去除掉;对不同的特征做相关矩阵分析并可视化;分析相关矩阵的目的,是给出特征两两之间的关系,剔除相关性较高的变量;构建模型模块用于通过逻辑回归的算法对海量用户行为特征和标签进行分类并发现欺诈行为共有的用户行为特征及输出用户的欺诈概率,中心节点和其他银行均使用paillier加密发送,基于数据隐私保护以及结合应用逻辑回归建模得到对应的模型,将新样本直接带入模型中计算欺诈概率,从而在数据隐私保护效果好的基础上,提高反欺诈预测准确率。附图说明为了便于本领域技术人员理解,下面结合附图对本专利技术作进一步的说明。图1为本专利技术的整体原理框图。具体实施方式下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。请参阅图1所示,基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统,包括数据采集模块、数据分析模块、构建模型模块和模型预测模块;数据采集模块用于汇集多家银行的数据共同建模并将其发送至数据分析模块;其中数据包括小微商户的个人身份信息、银行账户信息和交易信息;将建模发起方银行标记为发起银行,发起银行用符合guest表示本文档来自技高网...

【技术保护点】
1.基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统,其特征在于,包括数据采集模块、数据分析模块、构建模型模块和模型预测模块;/n所述数据采集模块用于汇集多家银行的数据共同建模并将其发送至数据分析模块;其中数据包括小微商户的个人身份信息、银行账户信息和交易信息;将建模发起方银行标记为发起银行,发起银行用符合guest表示;剩余的银行标记为其他银行,其他银行用符号host表示,并在其他银行内的其中一家银行搭建中心节点;中心节点用arbiter表示;/n所述数据分析模块用于对银行的数据进行分析,具体分析步骤为:/n步骤一:获取发起银行和其他银行相同的共同特征,并将共同特征用作建模特征;/n步骤二:分别进行数据融合,将相关联的个人信息和交易类信息融合成一张表;/n步骤三:对数据清洗,将明显错误和重复的数据去除掉;/n步骤四:对不同的特征做相关矩阵分析并可视化;/n步骤五:填充缺失值;/n所述构建模型模块用于通过逻辑回归的算法对海量用户行为特征和标签进行分类并发现欺诈行为共有的用户行为特征及输出用户的欺诈概率;具体步骤为:/nS1:发起银行和其他银行分别初始化各自模型,即特征参数的系数,w=随机产生的0-1之前均匀分布的数,常数项C=1;设置参数:分别设置循环最大迭代次数、学习率和正则化项系数;/nS2:中心节点创建公钥和私钥,并将公钥发送给其他银行,其他银行将结果发送给中心节点;/nS3:开始循环训练:/nS31:将所有样本分批,得到分批数据,分批数据包括每批数据量大小和数据批数;/nS32:发起银行和其他银行分别将各自的权重w发送给中心节点;其中,其他银行先加密再发送至给中心节点;/nS33:中心节点对其他银行发送的权重w进行解密,将得到的发起银行和其他银行分别将各自的权重w并聚合,并将聚合的权重发送给发起银行和其他银行,其中不加密的聚合权重发送给发起银行,加密的聚合权重发送给其它银行;/nS34:发起银行计算自己方的损失,损失函数公式如下:/n...

【技术特征摘要】
1.基于数据隐私保护的应用逻辑回归建模的信贷反欺诈系统,其特征在于,包括数据采集模块、数据分析模块、构建模型模块和模型预测模块;
所述数据采集模块用于汇集多家银行的数据共同建模并将其发送至数据分析模块;其中数据包括小微商户的个人身份信息、银行账户信息和交易信息;将建模发起方银行标记为发起银行,发起银行用符合guest表示;剩余的银行标记为其他银行,其他银行用符号host表示,并在其他银行内的其中一家银行搭建中心节点;中心节点用arbiter表示;
所述数据分析模块用于对银行的数据进行分析,具体分析步骤为:
步骤一:获取发起银行和其他银行相同的共同特征,并将共同特征用作建模特征;
步骤二:分别进行数据融合,将相关联的个人信息和交易类信息融合成一张表;
步骤三:对数据清洗,将明显错误和重复的数据去除掉;
步骤四:对不同的特征做相关矩阵分析并可视化;
步骤五:填充缺失值;
所述构建模型模块用于通过逻辑回归的算法对海量用户行为特征和标签进行分类并发现欺诈行为共有的用户行为特征及输出用户的欺诈概率;具体步骤为:
S1:发起银行和其他银行分别初始化各自模型,即特征参数的系数,w=随机产生的0-1之前均匀分布的数,常数项C=1;设置参数:分别设置循环最大迭代次数、学习率和正则化项系数;
S2:中心节点创建公钥和私钥,并将公钥发送给其他银行,其他银行将结果发送给中心节点;
S3:开始循环训练:
S31:将所有样本分批,得到分批数据,分批数据包括每批数据量大小和数据批数;
S32:发起银行和其他银行分别将各自的权重w发送给中心节点;其中,其他银行先加密再发送至给中心节点;
S33:中心节点对其他银行发送的权重w进行解密,将得到的发起银行和其他银行分别将各自的权重w并聚合,并将聚合的权重发送给发起银行和其他银行,其中不加密的聚合权重发送给发起银行,加密的聚合权重发送给其它银行;
S34:发起银行计算自己方的损失,损失函数公式如下:

发起银行的损失函数的L2正则化项为:发起银行计算加入正则化项后的总损失:Loss=(Loss+norm)/n;
S35:发起银行将损失函数值Loss发送给中心节点,总损失final_loss=guest的损失;<...

【专利技术属性】
技术研发人员:吴福全朱全日张小花左杨刘爽
申请(专利权)人:安徽迪科数金科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1