一种基于图半监督表示学习的欺诈节点检测方法技术

技术编号:38317677 阅读:8 留言:0更新日期:2023-07-29 08:59
本发明专利技术公开了一种基于图半监督表示学习的欺诈节点检测方法,包括以下步骤:根据欺诈实例的数据,获取待检测的恶意节点,确定待检测节点的特征向量;将待检测节点的特征向量输入微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络中,输出节点可疑性分数,完成恶意节点检测。基于真实数据Wikipedia edits、Bitcoin Alpha和Amazon上的实验结果表明,经过图对比学习和不平衡损失函数优化后的图神经网络输出的不同类节点表示有了较好区分度,且检测结果相较于以往基于图的欺诈检测效果有了较大提升。的欺诈检测效果有了较大提升。

【技术实现步骤摘要】
一种基于图半监督表示学习的欺诈节点检测方法


[0001]本专利技术涉及欺诈检测领域,具体涉及一种基于图半监督表示学习的欺诈节点检测方法。

技术介绍

[0002]现实世界的数据通常存在小部分异常实例,其行为模式偏离绝大多数实例或不符合预期行为。比如,随着互联网的发展,电子商务已经吸引了大量的用户,创造了巨大的经济效益。常见的平台比如淘宝、美团、亚马逊等会通过用户的点击率、添加收藏、交易和评论等行为,计算在线商家的排名指数和声誉因素。一般情况下,排名指数较好的条目会被列在搜索结果的前面,用户更喜欢口碑好的条目。提高这些指标的常规方法包括提供高质量的商品、优质的服务和广告,这通常需要花费很多精力。而存在一些不良商家通过欺诈行为来推销商品,如注册一些账号对目标商品进行频繁的点击,将目标商品加入收藏夹,虚假交易刷单,刷好评等等。这些欺诈行为会导致各种严重的后果:1)误导用户购买看似只看销量而不看质量的商品;2)正规商家收入直接受到影响,造成不正当竞争;3)对于电商平台来说,增加了识别优秀卖家和建立公平卖家信誉体系的难度。在金融领域,如支付宝,恶意用户可以通过大量注册账号,通过一系列行为实现恶意套现,对整个金融系统造成了极大的危害。而在借贷平台如花呗、借贷宝等,存在着违约、拖欠贷款的用户,这些用户的存在会使得企业承受风险,需要有效地识别手段。在社交网络平台,如微博、Facebook等,恶意用户可以通过注册大量机器人账号以传播垃圾信息,如刷好评,非法广告宣传,炒作等,从而牟取暴利。
[0003]恶意节点检测旨在发现这些异常节点,在电子商务、金融、安全、社交网络、学术网络等不同领域,恶意节点检测都是一项至关重要的任务。传统的基于规则或机器学习的检测方法很难处理不断变化的复杂模式或很少考虑用户间的交互;且恶意节点检测在实际场景中很少有数据被标记,通常有大量的未标记数据,因为很多实际场景中每天都会产生大量的数据,这些数据大多是正常的,将一部分欺诈行为贴上“异常”的标签,成本非常高;此外,在现实情况中,异常实例只占整体数据的很小一部分,整体数据存在不平衡问题。
[0004]传统基于图神经网络的欺诈检测方法中,真实数据存在标签稀缺、数据集不平衡从而导致分类正确率不高。

技术实现思路

[0005]为克服现有技术中的问题,本专利技术目的在于提供一种基于图半监督表示学习的欺诈节点检测方法,该方法成本低,分类检测准确率高,克服了整体数据存在不平衡及标签稀缺的问题。
[0006]为实现上述目的,本专利技术采用如下的技术方案实现:
[0007]一种基于图半监督表示学习的欺诈节点检测方法,包括以下步骤:
[0008]根据欺诈实例的数据,获取待检测的恶意节点,确定待检测节点的特征向量;
[0009]将待检测节点的特征向量输入微调后的基于自监督损失函数和有监督对比损失
函数训练的图神经网络中,输出节点可疑性分数,完成恶意节点检测。
[0010]进一步的,微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络通过以下过程获得:
[0011]步骤1:获得欺诈实例的数据,并依据各实例间的交互关系构建成图结构,每个实例是网络中的一个节点,实例间的关系构成边,再进行划分,构建训练样本集;
[0012]步骤2:对图结构进行扩散,得到图结构的扩散矩阵;
[0013]步骤3:将图结构中节点划分为K簇,每簇为节点列表;
[0014]步骤4:构建图神经网络,图神经网络包括消息传递模块、全连接层和归一化指数模块组成的分类器;
[0015]采用消息传递模块对节点进行编码,得到原始图上的节点表示和扩散图上的节点表示,将原始图上的节点表示和扩散图上的节点表示进行相加,将相加的结果依次输入全连接层和归一化指数模块,得到节点的可疑性分数;
[0016]步骤5:通过有监督对比损失函数和自监督损失函数,对图神经网络进行预训练;
[0017]步骤6:在训练样本集上采用标签分布感知的数据不平衡问题的损失函数,基于节点的可疑性分数对预训练后的图神经网络和分类器进行微调,得到微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络。
[0018]进一步的,对图结构通过基于个性化网页排名的图扩散方法,得到图结构的扩散矩阵。
[0019]进一步的,图结构的扩散矩阵S
PPR
通过下式计算:
[0020]S
PPR
=α(I
n

(1

α)D

1/2
AD

1/2
)
‑1[0021]其中,α为随机游走里的转移概率,I
n
为对角矩阵,D为对角度矩阵,A为图结构的邻接矩阵。
[0022]进一步的,节点列表C
k
通过下式计算:
[0023][0024]其中,C为满足Kmeans算法的每簇节点列表的集合,μ为满足Kmeans算法的每簇簇中心的集合,i为每一簇的索引,x
j
为图节点的特征向量,μi为簇中心。
[0025]进一步的,将原始图上的节点表示和扩散图上的节点表示进行相加的结果如下:
[0026][0027]其中,H为矩阵之和,H
τ
为原始图τ中所有节点表示向量构成的矩阵,H
β
为扩散图β中所有节点表示向量构成的矩阵,为n个维度为d的节点表示向量构成的矩阵,n为结构图中节点的个数。
[0028]进一步的,节点的可疑性分数p
i
通过下式计算:
[0029][0030]其中,σ是归一化指数模块,W为可训练权值矩阵,h
i
为节点v
i
的表示向量,b为可训练偏置参数。
[0031]进一步的,自监督损失函数公式如下:
[0032][0033]其中,θ为原始图τ的编码模型中的可优化参数,ω为扩散图β的编码模型中的可优化参数,K为总的聚类簇的集合,k为K个聚类中的一簇,|K|代表簇的个数,|k|代表簇k中节点的个数,MI为互信息,为第k簇中的每个节点在原始图τ上的表示向量,为第k簇中所有节点在扩散图β上的读出向量,为第k簇中的每个节点在扩散图β上的表示向量,为第k簇中所有节点在原始图τ上的读出向量。
[0034]进一步的,有监督对比损失函数公式如下:
[0035][0036][0037][0038]其中,为指示函数,τ为原始图,β为扩散图,l为有标签的节点数,为每个有标签节点v
s
在原始图τ上的有监督对比损失,为每个有标签节点v
s
在扩散图β上的有监督对比损失,y
s
为有标签节点v
s
的标签,v
t
为标签与有标签节点v
s
相同的节点,y
t
为标签与有标签节点v
s
相同的节点v
t...

【技术保护点】

【技术特征摘要】
1.一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,包括以下步骤:根据欺诈实例的数据,获取待检测的恶意节点,确定待检测节点的特征向量;将待检测节点的特征向量输入微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络中,输出节点可疑性分数,完成恶意节点检测。2.根据权利要求1所述的一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络通过以下过程获得:步骤1:获得欺诈实例的数据,并依据各实例间的交互关系构建成图结构,每个实例是网络中的一个节点,实例间的关系构成边,再进行划分,构建训练样本集;步骤2:对图结构进行扩散,得到图结构的扩散矩阵;步骤3:将图结构中节点划分为K簇,每簇为节点列表;步骤4:构建图神经网络,图神经网络包括消息传递模块、全连接层和归一化指数模块组成的分类器;采用消息传递模块对节点进行编码,得到原始图上的节点表示和扩散图上的节点表示,将原始图上的节点表示和扩散图上的节点表示进行相加,将相加的结果依次输入全连接层和归一化指数模块,得到节点的可疑性分数;步骤5:通过有监督对比损失函数和自监督损失函数,对图神经网络进行预训练;步骤6:在训练样本集上采用标签分布感知的数据不平衡问题的损失函数,基于节点的可疑性分数对预训练后的图神经网络和分类器进行微调,得到微调后的基于自监督损失函数和有监督对比损失函数训练的图神经网络。3.根据权利要求2所述的一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,对图结构通过基于个性化网页排名的图扩散方法,得到图结构的扩散矩阵。4.根据权利要求2所述的一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,图结构的扩散矩阵S
PPR
通过下式计算:S
PPR
=α(I
n

(1

α)D

1/2
AD

1/2
)
‑1其中,α为随机游走里的转移概率,I
n
为对角矩阵,D为对角度矩阵,A为图结构的邻接矩阵。5.根据权利要求2所述的一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,节点列表C
k
通过下式计算:其中,C为满足Kmeans算法的每簇节点列表的集合,μ为满足Kmeans算法的每簇簇中心的集合,i为每一簇的索引,x
j
为图节点的特征向量,μ
i
为簇中心。6.根据权利要求2所述的一种基于图半监督表示学习的欺诈节点检测方法,其特征在于,将原始图上的节点表示和扩散图上的节点表示进行相加的结果如下:其中,H为矩阵之和,H
τ
为原始图τ中所有节点表示向量构成的矩阵,H
β
为扩散图β中所有节点表示向量构成的矩阵,为n个维度为d的节点表示向量构成的矩阵,n为结构图中节点的个数。
7.根据权利要求2所述的一种基于图...

【专利技术属性】
技术研发人员:王晨旭王凯月
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1