基于改进图卷积神经网络的不均衡金融数据信用评估方法技术

技术编号:33279214 阅读:13 留言:0更新日期:2022-04-30 23:39
本发明专利技术公开了一种基于改进图卷积神经网络的不均衡金融数据信用评估方法,包括以下步骤:首先根据当前金融特征数据进行图构建,得到图G(V,E),其中V为点集,E为边集。在已构建的图的基础上,采用改进图卷积神经网络进行有监督学习模型的训练,最终用训练好的模型完成对金融用户信用的预测。本发明专利技术从数据增强的层面来缓解类别不均衡金融数据中的过拟合问题;另一方面,在改进GCN模型中,每一层图卷积运算综合利用一阶邻域中的节点向量和边向量的信息,通过加权聚合节点向量与边向量来更新所有的图节点向量,从模型层面来提升图节点向量表示学习的效果,进而提升对于类别不均衡的金融用户进行分类评估的效果。户进行分类评估的效果。户进行分类评估的效果。

【技术实现步骤摘要】
基于改进图卷积神经网络的不均衡金融数据信用评估方法


[0001]本专利技术涉及金融用户信用评价领域,特别涉及一种基于改进图卷积神经网络的不均衡金融数据信用评估方法。

技术介绍

[0002]在金融信用评估领域,数据类别不平衡是一个普遍的问题。例如在欺诈检测的问题当中,存在欺诈、违约等行为的样本数会远远少于正常的样本数,这一方面是因为坏用户在总用户当中的比例本身就比较小,另一方面存在欺诈行为的用户可能会隐瞒、伪造自己的欺诈记录。这就造成了少数类(欺诈用户)样本数量与多数类(正常用户)样本数量在分布上严重失衡。传统的机器学习模型在对类别不均衡数据进行学习时往往会在多数类的样本中获得比较好的泛化效果,而对于少数类的样本,由于训练集规模较小,可能会发生严重的过拟合,导致泛化性能很差。在样本数目较少的训练集中,少数类的样本数目被进一步限制,甚至可能出现某些少数类样本在训练集当中缺失的问题,即“类别缺失”。因此,如何解决金融数据中的类别分布不均衡所带来的模型泛化性能较差,难以有效学习少数类样本的问题,是金融信用评估领域的又一大挑战。
[0003]现有的解决数据类别不均衡问题的方法主要有重采样、数据合成、重加权、迁移学习、元学习和度量学习等。其中,重采样可能会加剧模型对少数类数据的过拟合;而数据合成可能会引入噪声或对分类用处不大的特征,降低分类器性能;度量学习基于样本点间距离,力求学习到少数类样本周边的更优决策边界,但以距离衡量相似度的方法在标签稀缺条件下往往存在较大局限;迁移学习和元学习都需要对多数类样本和少数类样本进行分别建模,在样本数和类别数较多时,模型的复杂度较高。以上方法在解决金融数据中的类别不均衡问题时或多或少存在一些局限,因此亟待提出一种简单、高效的算法框架,用于金融数据中的类别不均衡对金融信用评估模型性能所带来的局限。

技术实现思路

[0004]本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种基于改进图卷积神经网络的不均衡金融数据信用评估方法。
[0005]本专利技术提供了如下的技术方案:
[0006]本专利技术提供一种基于改进图卷积神经网络的不均衡金融数据信用评估方法,包括以下步骤:
[0007]S1,首先基于金融特征数据集进行图的构造;即根据输入的金融特征矩阵X∈R
N
×
D
(N代表训练样本集总数,D为特征数据的维度),构造图G(V,E)(V代表代表节点集合,E代表边集);每一个训练样本对应图中的一个节点,节点坐落于D维欧氏空间当中,每一维坐标对应样本每维特征的值;图构造主要有两步:首先用基于欧氏距离的K近邻算法确定每个点的一阶邻域,并用边连接中心节点和所有邻居节点,接着用RBF映射来计算每条边的边权,进而构成整张图的带权邻接矩阵A,边权的计算公式如下:
[0008][0009]其中σ代表RBF函数中的宽度参数,代表节点i与j之间的欧氏距离的平方;经过RBF映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值;
[0010]S2,采用随机图增强的方法对于训练数据进行增强(如图2所示);在训练数据集当中,对于每个节点的一阶邻域,以一定概率p随机剔除邻域中的节点和相应的边;对于任一节点v,其原始的一阶邻域可表示为:
[0011](u,e)∈N(v)
[0012]其中,u代表节点v一阶邻域中的节点,e代表节点v一阶邻域中的边;则经过随机图增强后,节点v的一阶邻域为:
[0013]N(v)'=N(v)

N(v)
drop
[0014]其中N(v)'为经过图增强后的邻域,N(v)
drop
为邻域当中随机删除的点集与边集,并且图增强前后邻域的规模之比满足|N(v)'|=(1

p)|N(v)|;
[0015]S3,用图增强后的训练集来对改进GCN模型进行训练,改进GCN的逐层节点表示向量更新规则(即空域图卷积运算)定义如下:
[0016][0017]其中,与分别代表节点v在第l层与第(l+1)层的表示向量,与分别为节点v的一阶邻域N(v)'当中的节点表示向量与边的表示向量,初始表示向量可随机设置;W
(l)
代表了第l层的卷积核,即待训练的权值矩阵;f(
·
,
·
)代表对邻域内节点向量和边向量的聚合函数,在这里采用向量卷积运算函数,即f(a,b)=a*b;σ(
·
)代表隐层的激活函数,在这里采用RELU函数作为隐层激活函数;
[0018]而对于每一层边的表示向量的更新,则简单地引入可学习矩阵进行训练即可:
[0019][0020]其中,与分别代表边e在第l层与第(l+1)层的表示向量,代表了第l层的边更新矩阵;
[0021]S4,基于我们的金融信用评估任务可以抽象为图节点分类任务,因此,只需要为改进GCN的输出层加上softmax映射,即可由节点表示向量得到节点的分类预测结果,完成最终分类器的训练;
[0022]S5,训练得到最终模型后,在测试集当中进行测试,得到最终的金融信用分类预测结果;注意,图增强仅在模型训练过程当中使用,在测试过程中仍用原始的图作为模型输入。
[0023]与现有技术相比,本专利技术的有益效果如下:
[0024]1.采用随机图增强的方法对于训练数据进行增强。从数据增强的层面有效缓解类别不均衡金融数据中的过拟合问题;
[0025]2.采用改进GCN模型来进行分类器训练。在每一层图卷积运算中,通过加权聚合一阶邻域中的节点向量与边向量来更新所有的图节点向量,综合利用了邻域当中的节点信息与边的信息,从模型层面提升图节点向量表示学习的效果,进而提升对不均衡金融数据信用评估的效果。
附图说明
[0026]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0027]图1是本专利技术的流程图;
[0028]图2为随机图增强的方法对于训练数据进行增强的示意图;
[0029]图3为改进GCN模型的结构示意图。
具体实施方式
[0030]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。其中附图中相同的标号全部指的是相同的部件。
[0031]实施例1
[0032]如图1

3,本专利技术提供一种基于改进图卷积神经网络的不均衡金融数据信用评估方法,包括以下步骤(方法流程图如图1所示):
[0033]S1,首先基于金融特征数据集进行图的构造。即根据输入的金融特征矩阵X∈R
N
×
D
(N代表训练样本集总数,D为特征数据的维度),构造图G(V,E)(V代表代表节点集合,E代表边集)。每一个训练样本对应图中的一个节点,节点坐落于D维欧氏空间当中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于改进图卷积神经网络的不均衡金融数据信用评估方法,特征在于,包括以下步骤:S1,首先基于金融特征数据集进行图的构造;即根据输入的金融特征矩阵X∈R
N
×
D
(N代表训练样本集总数,D为特征数据的维度),构造图G(V,E)(V代表代表节点集合,E代表边集);每一个训练样本对应图中的一个节点,节点坐落于D维欧氏空间当中,每一维坐标对应样本每维特征的值;图构造主要有两步:首先用基于欧氏距离的K近邻算法确定每个点的一阶邻域,并用边连接中心节点和所有邻居节点,接着用RBF映射来计算每条边的边权,进而构成整张图的带权邻接矩阵A,边权的计算公式如下:其中σ代表RBF函数中的宽度参数,代表节点i与j之间的欧氏距离的平方;经过RBF映射之后,所有边的权值被映射到(0,1)之间,并且距离越近的点之间的边具有越大的权值;S2,采用随机图增强的方法对于训练数据进行增强(如图2所示);在训练数据集当中,对于每个节点的一阶邻域,以一定概率p随机剔除邻域中的节点和相应的边;对于任一节点v,其原始的一阶邻域可表示为:(u,e)∈N(v)其中,u代表节点v一阶邻域中的节点,e代表节点v一阶邻域中的边;则经过随机图增强后,节点v的一阶邻域为:N(v)'=N(v)

N(v)
drop
其中N(v)'为经过图增强后的邻域,N(v)
drop
...

【专利技术属性】
技术研发人员:邱韵徐小龙邬晶李少远周松
申请(专利权)人:天翼电子商务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1