基于深度图半监督学习的金融信用评估方法技术

技术编号:36838873 阅读:24 留言:0更新日期:2023-03-15 15:15
本发明专利技术公开了一种基于深度图半监督学习的金融信用评估方法。这里的“深度”并非指深度学习当中网络结构的深层性,而是指在图信息挖掘层面上的深层性,对于金融特征数据所构建的图,进行了两层信息挖掘:首先是用深度图嵌入的方法进行了图结构信息的挖掘,接着再用图卷积神经网络对于图节点的邻域信息进行了聚合。与传统的图半监督学习方法相比,本发明专利技术所提出的方法有效缓解了标签稀缺条件下信息量稀疏的问题,在图信息的挖掘当中具有深层性,故称为深度图半监督学习。本发明专利技术所提出的基于深度图半监督学习的方法提升了标签稀缺条件下金融信用评估的准确性,同时也加快了模型训练速度,从而实现对于标签稀缺的金融数据高效、准确的信用评估。确的信用评估。确的信用评估。

【技术实现步骤摘要】
基于深度图半监督学习的金融信用评估方法


[0001]本专利技术涉及金融用户信用评价领域,特别涉及基于深度图半监督学习的金融信用评估方法。

技术介绍

[0002]在金融市场当中,金融欺诈行为时有发生,不仅影响金融交易的正常秩序,也为用户、企业、机构带来巨大损失。常见的金融欺诈包括:银行欺诈、保险欺诈、证券欺诈和商品交易欺诈等。为了防范金融欺诈行为的发生,对金融用户、企业等进行信用评估日渐成为一种迫切的需求。若将金融用户的行为记录作为特征(features),将用户的信用评价结果作为标签(labels)的话,那么金融用户信用评估问题就被抽象为如何根据用户的特征数据拟合出合理的标签。因此,如何建立合理高效的数学模型,从金融用户的行为记录特征中准确获取相应的信用评估标签,成为金融用户信用评价领域的研究热点。
[0003]在现有的技术当中,常常使用有监督机器学习的方法来完成从金融用户的特征数据到用户信用评价结果标签的学习拟合。但有监督机器学习方法往往需要大量的有标签数据集作为训练样本。在很多实际问题场景当中,样本标签的获取往往费事费力,成本颇高。金融用户的信用评估就是一个典型的例子。在传统的金融信用评估方法当中,对目标用户的评级往往需要通过对用户的交易、投资记录等信息进行长时间的跟踪分析,并根据专家经验以及复杂的算法来进行判定。这就导致在实际金融信用评估问题当中,有标签样本的稀缺性普遍存在,从而极大地限制了有监督学习模型进行信用评估的效果。而现有的半监督学习方法也是有诸多局限,如生成式算法需要提前知道模型的概率密度分布函数,需要专家知识,适用领域较小;半监督支持向量机方法模型复杂度较高且一般局限于二分类问题;协同训练法对数据分布较敏感,需要数据属性之间有较好的独立性;自学习法鲁棒性较差,无自我纠错能力,训练误差会累积。因此,本专利提出了一种基于深度图的半监督学习方法对金融用户进行信用评估以及特征挖掘,与上述半监督学习方法相比,图半监督学习的算法适用于任意分布的数据集、无需先验知识、鲁棒性好、模型结构复杂度低等优点。在此基础上,本专利技术将深度图嵌入和基于图卷积神经网络的半监督学习方法相结合,同一般的图半监督学习方法相比,有效缓解了标签稀缺条件下信息量稀疏的问题,能够深度挖掘图的结构信息,显著提升了在开源金融数据集上的信用评估效果。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的缺陷,提供基于深度图半监督学习的金融信用评估方法。这里的“深度”并非指深度学习当中网络结构的深层性,而是指在图信息挖掘层面上的深层性。对于金融特征数据所构建的图,进行了两层信息挖掘:首先是用深度图嵌入的方法进行了图结构信息的挖掘,接着再用图卷积神经网络对于图节点的邻域信息进行了聚合。因此,与传统的图半监督学习方法相比,本专利技术所提出的方法有效缓解了标签稀缺条件下信息量稀疏的问题,在图信息的挖掘当中具有深层性,故称为深度图半监督
学习。
[0005]本专利技术的主要有益效果有:1.基于金融特征数据进行图的构建。通过将金融特征数据当作图数据来处理,来挖掘金融个体之间的潜在关系信息;2.将深度图嵌入方法用于金融用户图的图表示学习,挖掘图结构信息;3.将图卷积神经网络用于半监督学习模型的训练,对图中节点的邻域信息进行聚合;4.与传统金融信用评估方法相比,本专利技术所提出的基于深度图半监督学习的方法提升了标签稀缺条件下金融信用评估的准确性,同时也加快了模型训练速度,从而实现对于标签稀缺的金融数据高效、准确的信用评估。
[0006]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0007]本专利技术提供一种基于深度图半监督学习的金融信用评估方法,包括以下步骤:
[0008]S1,根据原始特征数据集进行图的构造,即由X∈R
N
×
D
构造图G(V,E),其中X为原始特征数据集,由N
×
D维的矩阵表示,N为用户样本数,D为每个用户样本对应的特征维数,X所对应的图G(V,E)位于D维特征空间当中,V(Vertices)代表图中所有节点的集合,图中共有N个节点,每个节点代表一个用户样本,该节点在D维特征空间当中的坐标等于该节点对应的用户样本D维特征的值,E(Edges)是所有节点之间的边集,边表征节点之间的连接关系,边的权值由基于欧氏距离的rbf映射函数确定,比如说,节点i与节点j之间边的权值可以表示为:
[0009][0010]其中σ代表rbf函数中的宽度参数,代表节点i与j之间的欧氏距离的平方,经过rbf映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值,节点和边可以被统一地用邻接矩阵来表示,他们共同表征了图的结构信息;
[0011]S2,对构造好的图G(V,E)进行随机游走,以图中每个节点为起点分别进行n次随机游走,每次随机游走的截断长度为m,进而产生由一系列节点序列所构成的集合,随机游走的策略基于Node2Vec算法,分为宽度优先搜索(BFS)与深度优先搜索(DFS),在Node2Vec算法的随机游走过程当中,对于有边相连的点对(v,x),给定当前节点为v,则随机游走所访问的下一个节点为x的概率为:
[0012][0013]其中,π
vx
是节点v与x之间未归一化的转移概率,Z为归一化常数,对于π
vx
的计算,进一步引入两个超参数p与q来控制游走策略,并最终体现在π
vx
的值当中,首先设:
[0014]π
vx
=α
pq
(t,x)
·
w
vx
[0015]其中w
vx
为节点v和节点x之间的边权,接着:
[0016][0017]其中d
tx
为节点t与节点x之间的最短路径距离,超参数p叫做返回参数,其控制着随机游走过程中重复访问刚才访问过的节点的概率,若p较小,则重复访问刚才访问过的节点的概率会变大,超参数q叫做进出参数,其控制的随机游走过程中的游走趋势,若q>1,则随机游走更容易访问节点t周边的节点(对应BFS);若q<1,则随机游走更容易访问远离节点t的节点(对应DFS),有了超参数p和q,我们就能够根据图的结构灵活调整随机游走的策略,从而使模型适应更多种分布的数据,而不再仅仅局限于基于欧氏距离的簇类分布数据。
[0018]通过对于对于图中每个节点进行若干次的随机游走操作,整张图的结构信息被包含在了所生成的节点序列当中;
[0019]S3,对随机游走所生成的一系列节点序列集合,首先采用滑动窗口模型进行节点对的采样。对于每个节点序列,使用长度为w的滑动窗口采样得到多个点对(V
c
,V
i
),其中V
c
代表中心节点(centre),V
i
代表周边节点(context),接着将采样得到的多个点对作为skip

gram网络模型的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度图半监督学习的金融信用评估方法,其特征在于,包括以下步骤:S1,根据原始特征数据集进行图的构造,即由X∈R
N
×
D
构造图G(V,E),其中X为原始特征数据集,由N
×
D维的矩阵表示,N为用户样本数,D为每个用户样本对应的特征维数,X所对应的图G(V,E)位于D维特征空间当中,V(Vertices)代表图中所有节点的集合,图中共有N个节点,每个节点代表一个用户样本,该节点在D维特征空间当中的坐标等于该节点对应的用户样本D维特征的值,E(Edges)是所有节点之间的边集,边表征节点之间的连接关系,边的权值由基于欧氏距离的rbf映射函数确定,比如说,节点i与节点j之间边的权值可以表示为:其中σ代表rbf函数中的宽度参数,代表节点i与j之间的欧氏距离的平方,经过rbf映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值,节点和边可以被统一地用邻接矩阵来表示,他们共同表征了图的结构信息;S2,对构造好的图G(V,E)进行随机游走,以图中每个节点为起点分别进行n次随机游走,每次随机游走的截断长度为m,进而产生由一系列节点序列所构成的集合,随机游走的策略基于Node2Vec算法,分为宽度优先搜索(BFS)与深度优先搜索(DFS),在Node2Vec算法的随机游走过程当中,对于有边相连的点对(v,x),给定当前节点为v,则随机游走所访问的下一个节点为x的概率为:其中,π
vx
是节点v与x之间未归一化的转移概率,Z为归一化常数,对于π
vx
的计算,进一步引入两个超参数p与q来控制游走策略,并最终体现在π
vx
的值当中,首先设:π
vx
=α
pq
(t,x)
·
w
vx
其中w
vx
为节点v和节点x之间的边权,接着:其中d
tx
为节点t与节点x之间的最短路径距离,超参数p叫做返回参数,其控制着随机游走过程中重复访问刚才访问过的节点的概率,若p较小,则重复访问刚才访问过的节点的概率会变大,超参数q叫做进出参数,其控制的随机游走过程中的游走趋势,若q>1,则随机游走更容易访问节点t周边的节点(对应BFS);若q<1,则随机游走更容易访问远离节点t的节点(对应DFS),有了超参数p和q,我们就能够根据图的结构灵活调整随机游走的策略,从而使模型适应更多种分布的数据,而不再仅仅局限于基于欧氏距离的簇类分布数据。通过对于对于图中每个节点进行若干次的随机游走操作,整张图的结构信息被包含在了所生成的节点序列当中;S3,对随机游走所生成的一系列节点序列集合,首先采用滑动窗口模型进行节点对的
采样。对于每个节点序列,使用长度为w的滑动窗口采样得到多个点对(V
c
,V
i
),其中V
c
代表中心节点(centre),V
i
代表周边节点(context),接着将采样得到的多个点对作为skip

gram网络模型的训练集,对于每一个输入的中心节点,其对应的训练目标是最大化它与它的周边节点之间的共现概率,用负对数损失函数的形式表示,数学表达式如下:其中,Φ(V
c
)是将节点V
c
映射成对应的嵌入表示向量的映射函数,用映射矩阵Φ∈R

【专利技术属性】
技术研发人员:邱韵徐小龙邬晶李少远徐世界
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1