基于图神经网络的团伙发现方法和系统技术方案

技术编号:22167030 阅读:48 留言:0更新日期:2019-09-21 10:38
本公开提供了一种基于图神经网络的团伙发现方法,包括:获取客户属性数据和客户间资金关系数据;获取有标记黑样本客户的属性数据;基于客户属性数据和客户间资金关系数据,构建图神经网络中的节点和边;对图神经网络进行无监督训练,以将每个节点映射成低维向量,其中低维向量包括节点的图结构信息和邻居节点的特征信息;将低维向量进行聚类,以获取所聚类团伙;以及将有标记黑样本客户的属性数据输入图神经网络,计算所聚类团伙中有标记黑样本客户的密度,并按密度确定目标团伙。

Group Discovery Method and System Based on Graph Neural Network

【技术实现步骤摘要】
基于图神经网络的团伙发现方法和系统
本公开主要涉及机器学习,尤其涉及应用图神经网络的聚类。
技术介绍
反洗钱是指金融机构通过流程、规则或模型等方式控制系统内的洗钱风险。在反洗钱领域,已经从单体目标或可疑犯罪客户的识别逐渐向目标或可疑犯罪团伙转变,因为团伙所具有的社会危害要远大于单体客户。如何识别洗钱犯罪团伙成了当务之急,其中尤以如何在互联网金融活动中识别洗钱犯罪团伙为要。深度学习技术的发展,使得对有相似特征的团伙的发现提供了新的方向。尽管深度学习通常无法进行因果推理,但图神经网络(GraphNeuralNetwork,GNN)的结合成为解决方案之一。图神经网络将连接与符号有机结合,不仅使深度学习模型能够应用在图这种非欧几里德结构上,还为深度学习模型赋予了一定的因果推理能力。图神经网络扩展了现有的神经网络,用于处理图中表示的数据。在图中,每个节点是由其特性和相关节点定义的,而边表示节点之间的关系。将图神经网络用在机器学习中的经典方法是使用转导函数(transductionfunction)将图结构和构成图的点的信息映射到M维欧式空间(m-dimensionalEuclideanSpace)。而将这种经典方法应用于洗钱团伙发现中,其有效性并不高。同样,对于其他团伙的网络活动,同样可采用机器学习手段来发现有相似特征的团伙。例如,违法/负面的活动有网络赌博、网络传销、网络贩毒/吸毒、黑客团体等等;中性的活动有网络游戏、追星一族等等;而正面的活动有慈善团体等等。本领域需要一种高效的基于图神经网络的团伙发现方法。
技术实现思路
为解决上述技术问题,本公开提供了一种高效的基于图神经网络的团伙发现方案。在本公开一实施例中,提供了一种基于图神经网络的团伙发现方法,包括:获取客户属性数据和客户间资金关系数据;获取有标记黑样本客户的属性数据;基于客户属性数据和客户间资金关系数据,构建图神经网络中的节点和边;对图神经网络进行无监督训练,以将每个节点映射成低维向量,其中低维向量包括节点的图结构信息和邻居节点的特征信息;将低维向量进行聚类,以获取所聚类团伙;以及将有标记黑样本客户的属性数据输入图神经网络,计算所聚类团伙中有标记黑样本客户的密度,并按密度确定目标团伙。在本公开的另一实施例中,客户属性数据和客户间资金关系数据需要进行预处理。在本公开的又一实施例中,对客户属性数据和客户间资金关系数据进行的预处理是进行向量化和归一化处理。在本公开的另一实施例中,对图神经网络进行无监督训练进一步包括:通过编码将每个节点映射为一个低维向量;经由资金关系进行随机采样,生成节点序列;通过负采样机制定义损失函数;以及基于所定义的损失函数,通过随机梯度下降逐步迭代更新低维向量的参数。在本公开的另一实施例中,将每个节点映射为一个低维向量可采用attention机制和资金加权方法,将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。在本公开的又一实施例中,将每个节点映射为一个低维向量可直接对邻居节点的特征进行加和求平均。在本公开的另一实施例中,将低维向量进行聚类采用K-means聚类算法。在本公开的另一实施例中,按密度确定目标团伙包括按密度从高到低进行排序,确定排名最高的团伙为目标团伙。在本公开的又一实施例中,按密度确定目标团伙包括按密度从高到低进行排序,将密度在阈值以上的团伙确定为目标团伙。在本公开一实施例中,提供了一种基于图神经网络的团伙发现系统,包括:数据预处理模块,获取客户属性数据和客户间资金关系数据,且获取有标记黑样本客户的属性数据;图神经网络构建模块,基于客户属性数据和客户间资金关系数据,构建图神经网络中的节点和边;无监督训练模块,对图神经网络进行无监督训练,以将每个节点映射成低维向量,其中低维向量包括节点的图结构信息和邻居节点的特征信息;聚类模块,将低维向量进行聚类,以获取所聚类团伙;以及团伙发现模块,将有标记黑样本客户的属性数据输入图神经网络,计算所聚类团伙中有标记黑样本客户的密度,并按密度确定目标团伙。在本公开的另一实施例中,数据预处理模块对客户属性数据和客户间资金关系数据进行预处理。在本公开的又一实施例中,数据预处理模块对客户属性数据和客户间资金关系数据进行的预处理是进行向量化和归一化处理。在本公开的另一实施例中,无监督训练模块进一步:通过编码将每个节点映射为一个低维向量;经由资金关系进行随机采样,生成节点序列;通过负采样机制定义损失函数;以及基于所定义的损失函数,通过随机梯度下降逐步迭代更新低维向量的参数。在本公开的又一实施例中,无监督训练模块可采用attention机制和资金加权系统,将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。在本公开的再一实施例中,无监督训练模块可直接对邻居节点的特征进行加和求平均。在本公开一实施例中,聚类模块采用K-means聚类算法。在本公开的另一实施例中,团伙发现模块按密度从高到低进行排序,确定排名最高的团伙为目标团伙。在本公开的又一实施例中,团伙发现模块按密度从高到低进行排序,将密度在阈值以上的团伙确定为目标团伙。在本公开一实施例中,提供了一种存储有指令的计算机可读存储介质,当这些指令被执行时使得机器执行如前所述的方法。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。附图说明本公开的以上
技术实现思路
以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的专利技术的示例。在附图中,相同的附图标记代表相同或类似的元素。图1示出根据本公开一实施例的基于图神经网络的团伙发现方法的流程图;图2示出根据本公开一实施例的基于图神经网络的团伙发现方法的示意图;图3示出根据本公开一实施例的对图神经网络进行无监督训练的过程的流程图;图4示出根据本公开另一实施例的对图神经网络进行无监督训练的过程的示意图;图5示出根据本公开一实施例的基于图神经网络的团伙发现系统的框图。图6示出根据本公开一实施例的针对图神经网络的无监督训练系统的框图。具体实施方式为使得本公开的上述目的、特征和优点能更加明显易懂,以下结合附图对本公开的具体实施方式作详细说明。在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下文公开的具体实施例的限制。在当今的互联网活动中,存在不少非法活动,例如洗钱、网络赌博、网络传销等等。识别互联网活动中的犯罪团伙成了当务之急,其中尤以在互联网金融活动中识别洗钱犯罪团伙为要。因此,在本公开的具体描述中,将以基于图神经网络的洗钱团伙发现为例。本领域技术人员可以理解,本公开的技术方案并不限于洗钱团伙发现,甚至也不限于犯罪团伙发现,而是可应用于各种网络上团体活动的团伙发现。在互联网金融活动中,对特定金融机构或金融类APP而言,每个客户都具有各种维度的属性信息(下文中称为客户属性数据),例如客户是个人账户还是公司账户,客户名是什么,客户最近90天流入金额等。客户与客户之间存在流入流出的资金关系(即客户间资金关系,下文中称为客户间资金关系数据),例如客户A最近90天有资金流向客户B。可将所有客户本文档来自技高网
...

【技术保护点】
1.一种基于图神经网络的团伙发现方法,包括:获取客户属性数据和客户间资金关系数据;获取有标记黑样本客户的属性数据;基于所述客户属性数据和所述客户间资金关系数据,构建图神经网络中的节点和边;对所述图神经网络进行无监督训练,以将每个节点映射成低维向量,其中所述低维向量包括所述节点的图结构信息和邻居节点的特征信息;将所述低维向量进行聚类,以获取所聚类团伙;以及将所述有标记黑样本客户的属性数据输入所述图神经网络,计算所聚类团伙中所述有标记黑样本客户的密度,并按密度确定目标团伙。

【技术特征摘要】
1.一种基于图神经网络的团伙发现方法,包括:获取客户属性数据和客户间资金关系数据;获取有标记黑样本客户的属性数据;基于所述客户属性数据和所述客户间资金关系数据,构建图神经网络中的节点和边;对所述图神经网络进行无监督训练,以将每个节点映射成低维向量,其中所述低维向量包括所述节点的图结构信息和邻居节点的特征信息;将所述低维向量进行聚类,以获取所聚类团伙;以及将所述有标记黑样本客户的属性数据输入所述图神经网络,计算所聚类团伙中所述有标记黑样本客户的密度,并按密度确定目标团伙。2.如权利要求1所述的方法,其特征在于,所述客户属性数据和所述客户间资金关系数据需要进行预处理。3.如权利要求2所述的方法,其特征在于,对所述客户属性数据和所述客户间资金关系数据的预处理是进行向量化和归一化处理。4.如权利要求1所述的方法,其特征在于,对所述图神经网络进行无监督训练进一步包括:通过编码将每个节点映射为一个低维向量;经由资金关系进行随机采样,生成节点序列;通过负采样机制定义损失函数;以及基于所定义的损失函数,通过随机梯度下降逐步迭代更新所述低维向量的参数。5.如权利要求4所述的方法,其特征在于,所述将每个节点映射为一个低维向量可采用attention机制和资金加权方法,将每一个节点的信息用此节点的邻居节点的信息加权求和来表示。6.如权利要求4所述的方法,其特征在于,所述将每个节点映射为一个低维向量可直接对邻居节点的特征进行加和求平均。7.如权利要求1所述的方法,其特征在于,所述将所述低维向量进行聚类采用K-means聚类算法。8.如权利要求1所述的方法,其特征在于,所述按密度确定目标团伙包括按所述密度从高到低进行排序,确定排名最高的团伙为目标团伙。9.如权利要求1所述的方法,其特征在于,所述按密度确定目标团伙包括按所述密度从高到低进行排序,将所述密度在阈值以上的团伙确定为目标团伙。10.一种基于图神经网络的团伙发现系统,包括:数据预处理模块,获取客户属性数据和客户间资金...

【专利技术属性】
技术研发人员:潘健民张鹏
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1