当前位置: 首页 > 专利查询>刘西蒙专利>正文

差分隐私下基于SVM的信用违约预测方法技术

技术编号:26845860 阅读:23 留言:0更新日期:2020-12-25 13:08
本发明专利技术公开了信用违约技术领域的差分隐私下基于SVM的信用违约预测方法,包括如下步骤:S1:数据预处理;S2:变量选择;S3:根据差分隐私串行组合性质,设计差分隐私下加权SVM优化模型,本发明专利技术为数据不平衡下的差分隐私SVM学习问题提供了有效的解决方案,该解决方案能够针对性地解决使用差分隐私SVM学习预测客户违约时面临的数据不平衡问题,适用于包括信用卡违约预测在内的存在数据不平衡的应用场景,如灾害预测,医疗诊断等领域也适用于本发明专利技术的技术方案。

【技术实现步骤摘要】
差分隐私下基于SVM的信用违约预测方法
本专利技术涉及信用违约
,具体为差分隐私下基于SVM的信用违约预测方法。
技术介绍
随着社会经济的快速发展,越来越多人使用信用卡实现超前消费。在人们享受信用卡带来的消费便利的同时,越来越多的信用卡债务问题也随之产生。一部分人由于无法及时偿还信用卡债务导致信用卡违约,使得金融机构和消费者遭受巨大经济损失,严重破坏了现有金融秩序,打击了消费者金融信息。如何有效识别潜在的信用卡违约客户,减少信用卡违约的现象是金融机构进行风险控制和管理过程中面临的巨大挑战。作为一种经典的机器学习方法,SVM学习靠着强大的数据拟合能力备受科研人员青睐。该技术基于坚实的数学理论基础,能够高效、稳定地完成学习过程,并且训练后的模型具有良好的鲁棒性。为减少信用卡金融交易的损失和不确定性,本专利技术将采用SVM学习预测潜在的信用卡违约客户。对于任何金融机构而言,保护客户个人隐私安全是其最基本的义务。然而,在使用机器学习建立金融预测模型的过程中需要涉及客户数据的使用,存在客户个人隐私泄露的风险,尤其是当预测模型被提供给不被信任的第三方时。如图1所示,银行A利用自己客户的信息训练了预测模型,然后将该模型提供给第三方机构B用于帮助他们预测自己的客户是否具有违约倾向。此时,若第三方机构B存在恶意窃取银行A客户隐私的动机,则可能导致银行A的客户隐私泄露。为了保护个人隐私,DWork等人提出了差分隐私保护技术,该技术基于严格的数学分析提供强大的个人隐私保护,保证了无论攻击者具有任何背景知识,都难以有效获取个人隐私信息。为解决机器学习中的隐私问题,Benjamin等人首次提出了差分隐私保护的SVM学习方法。其工作内容在于建立差分隐私SVM模型,然后分析数据敏感性,判断需要添加多少噪声才能有效保证SVM学习满足ε-差分隐私,并运用了适当的数据变换提升了SVM学习的精确性。该技术采用输出扰动技术实现差分隐私,有效避免了基于迭代算法的机器学习隐私预算快速消耗的问题,从理论角度解决一般场景下差分隐私的SVM学习问题。不过该技术在提出过程中并未充分考虑具体应用场景下的SVM学习问题,其技术方案偏理论。差分隐私SVM学习技术的提出促进了隐私安全的智能技术发展,保证了金融、医疗等机构运用数据分析创造价值过程中用户的数据安全,为这些机构的数据分析行为提供了道德和法律的正当性。同时,SVM学习的隐私安全性也促使了人们更愿意许可涉及自身的数据被用于正当的数据分析用途,客观上也促进了智能技术本身的发展。由于上述技术侧重于差分隐私SVM学习在一般场景下的技术问题,因此将其应用于信用卡违约预测的场景难以实现有效的预测。其原因在于信用卡违约客户的数据是一类严重不平衡的数据,不平衡性体现在客户数据的贡献度不平衡以及决策变量类别的不平衡两个方面。在实际应用中,所提供的客户数据维度非常多,但它们并非都对于预测客户违约有帮助,有些数据的使用所提升的预测能力可以忽略不计,但在差分隐私技术下,这些贡献度非常有限的变量的使用却依然要求增加相应噪声才能保证ε-差分隐私,预测能力提升极小却增加了SVM学习结果的偏差,结果反而获得更差的SVM学习结果。此外,实际数据中只有少部分客户是违约客户,违约客户数量与未违约客户数量的比例严重不平衡,现有的差分隐私SVM学习技术在该应用场景下倾向于将客户预测为未违约客户,甚至将几乎所有客户都判断为未违约客户,此时预测结果就失去其应有的价值。在常规的机器学习中,解决这类问题的主要方法是为不同类别的变量添加适当的权值,但在差分隐私背景下,若在现有的差分隐私SVM学习方法中直接拓展至加权SVM学习会破坏隐私安全性,使得SVM学习不满足ε-差分隐私。因此,现有的差分隐私SVM学习技术无法有效解决信用卡违约预测场景下的学习问题,甚至导致ε-差分隐私得不到保证是当前差分隐私SVM学习方法存在的主要缺陷。存在上述问题的主要原因在于差分隐私机器学习技术的研究目前仍处于理论发展阶段,大量的研究资源用于解决如何在保证ε-差分隐私的前提下提升机器学习的有效性,目前尚缺乏针对具体应用场景中面临技术难题的技术研究。而本专利技术所关注的信用卡违约预测场景中的数据不平衡问题正是在相关基础理论研究过程中容易忽略,但信用违约预测问题中必须要解决一个应用问题。并且在差分隐私背景下,现有理论在解决这类问题时存在ε-差分隐私不满足的缺陷,无法通过简单的理论拓展直接应用于解决数据不平衡问题。该技术缺陷是差分隐私SVM学习技术从理论研究向实际应用发展过程中面临的阶段性问题。基于此,本专利技术设计了差分隐私下基于SVM的信用违约预测方法,以解决上述提到的问题。
技术实现思路
本专利技术的目的在于提供差分隐私下基于SVM的信用违约预测方法,以解决上述提到的问题。为实现上述目的,本专利技术提供如下技术方案:差分隐私下基于SVM的信用违约预测方法,包括如下步骤:S1:数据预处理:通过归一化方法将隐私数据库D的数据映射到区间[-1,1]内,所述隐私数据库D的数据类型分为代表类别的离散型变量和代表数量的连续型变量;S2:变量选择:将S1处理后的数据进行变量贡献度分析,选用贡献度最大的kDiscrete个离散型变量和kContinuity个连续型变量;S3:建立模型:根据差分隐私串行组合性质,设计差分隐私下加权SVM优化模型。优选的,在所述步骤S1中,对于所述离散型变量,通过数据平移、缩放的方法将数值均匀地映射到[0,1]之间;对于所述连续型变量,按照一定比例缩放,然后采用数值截断的方法将数值进行映射。优选的,在所述步骤S2中,对于所述离散型变量,贡献度最大的kDiscrete个离散型变量采用信息增益比衡量,信息增益比IGR(A)的表达式如下:其中,EntD(A)表示对于变量A关于隐私数据库D的信息熵,EntD(Y)表示对于变量Y关于隐私数据库D的信息熵,DA=ν表示由D中满足筛选条件A=ν的样例所构成的子集,对于所述连续型变量,贡献度最大的kContinuity个连续型变量采用Jaccard距离衡量,Jaccard距离JacDis的表达式如下:其中,S1表示被标记为1的分布曲线所围成的曲面面积,S-1表示被标记为-1的分布曲线所围成的曲面面积。优选的,对于所述连续型变量,利用了核概率密度估计方法对两类客户变量分布进行比较,所述核概率密度估计方法采用选用Epanechnikov核估计变量的概率密度函数,所述Epanechnikov核如下表达式:优选的,在所述步骤S3中,加权SVM优化模型如下:其中,是待求解法向量,n是数据样例个数,C>0是损失函数的惩罚系数,ω是惩罚参数强化系数。优选的,所述加权SVM优化模型实现ε-差分隐私,需要分配一部分隐私预算ε1=ρε使得ω的计算过程满足ε1-差分隐私,其余的隐私预算ε2=(1-ρ)ε用于保证加权SVM优化模型求解过程满足ε2-差分隐私。优选的,差分隐私下ω的表达式如下:...

【技术保护点】
1.差分隐私下基于SVM的信用违约预测方法,包括如下步骤:/nS1:数据预处理:通过归一化方法将隐私数据库D的数据映射到区间[-1,1]内,所述隐私数据库D的数据类型分为代表类别的离散型变量和代表数量的连续型变量;/nS2:变量选择:将S1处理后的数据进行变量贡献度分析,选用贡献度最大的k

【技术特征摘要】
1.差分隐私下基于SVM的信用违约预测方法,包括如下步骤:
S1:数据预处理:通过归一化方法将隐私数据库D的数据映射到区间[-1,1]内,所述隐私数据库D的数据类型分为代表类别的离散型变量和代表数量的连续型变量;
S2:变量选择:将S1处理后的数据进行变量贡献度分析,选用贡献度最大的kDiscrete个离散型变量和kContinuity个连续型变量;
S3:建立模型:根据差分隐私串行组合性质,设计差分隐私下加权SVM优化模型。


2.根据权利要求1所述的差分隐私下基于SVM的信用违约预测方法,其特征在于:在所述步骤S1中,对于所述离散型变量,通过数据平移、缩放的方法将数值均匀地映射到[0,1]之间;对于所述连续型变量,按照一定比例缩放,然后采用数值截断的方法将数值进行映射。


3.根据权利要求1所述的差分隐私下基于SVM的信用违约预测方法,其特征在于:在所述步骤S2中,
对于所述离散型变量,贡献度最大的kDiscrete个离散型变量采用信息增益比衡量,信息增益比IGR(A)的表达式如下:



其中,EntD(A)表示对于变量A关于隐私数据库D的信息熵,EntD(Y)表示对于变量Y关于隐私数据库D的信息熵,DA=ν表示由D中满足筛选条件A=ν的样例所构成的子集,
对于所述连续型变量,贡献度最大的kContinuity个连续型变量采用Jaccard距离衡量,Jaccard距离JacDis的表达式如下:



其中,S1表示被标记为1的分布曲线所围成的曲面面积,S-1表示被标记为-1的分布曲线所围成的曲面面积。


4.根据权利要求3所述的差分隐私下基于SVM的信用违约预测方法,其特征在于:对于所述连续型变量,利用了核概率密度估...

【专利技术属性】
技术研发人员:刘西蒙蔡剑平李家印李小燕郭文忠
申请(专利权)人:刘西蒙
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1