当前位置: 首页 > 专利查询>东华大学专利>正文

一种基于实体关系的在线交易欺诈检测方法技术

技术编号:22784120 阅读:19 留言:0更新日期:2019-12-11 04:22
本发明专利技术涉及一种基于实体关系的在线交易欺诈检测方法,其关键在于,根据交易数据抽取实体关系,构建关系网络二部图,提出了基于节点收缩的异质网络同质化方法和基于集成学习、图表征学习的邻域信息聚合提升树分类模型机制。本发明专利技术提供的方法从实用性角度出发,通过将注意力从交易节点本身转化到关系网络中交易的若干阶邻域信息,充分考虑交易之间潜在的关联关系,为挖掘团伙欺诈提供了可能性。梯度提升模型通过不断拟合模型的残差,提高欺诈识别的效果,有很好的表现效果。同时,该方法将集成学习从网格型数据的应用扩展至图数据的应用领域。基于以上方面,建立了借贷交易欺诈检测方法的框架,为解决欺诈交易检测提供了技术支持。

An online transaction fraud detection method based on entity relationship

The invention relates to an online transaction fraud detection method based on entity relationship, the key of which is to extract entity relationship according to transaction data, build a bipartite graph of relationship network, propose a heterogeneous network homogenization method based on node contraction and a neighborhood information aggregation promotion tree classification model mechanism based on integrated learning and graph learning. The method provided by the invention, from the perspective of practicability, by transforming the attention from the transaction node itself to several levels of neighborhood information of transactions in the relational network, fully considering the potential association relationship between transactions, provides the possibility for mining Gang fraud. Gradient promotion model improves the effect of fraud identification by continuously fitting the residual of the model, which has a good performance effect. At the same time, this method extends integrated learning from the application of grid data to the application of graph data. Based on the above aspects, the framework of fraud detection method for loan transaction is established, which provides technical support for solving fraud detection.

【技术实现步骤摘要】
一种基于实体关系的在线交易欺诈检测方法
本专利技术涉及一种网络交易检测方法,属于信息

技术介绍
近年来,随着互联网技术的发展,在金融领域催生了一大批新兴业务。网络交易为用户带来便利的同时,也为网络黑产提供了可乘之机。当前网络黑产呈现产业化、精准化、移动化、技术化等特征,尤其是线上信贷金融业务领域,这不仅要求对借款人的信用资质进行评估,还需要格外关注潜在的欺诈行为。对抗网络黑产已经成为互联网金融企业的一项核心研究课题。类比传统的线下贷款流程需要收集申请人的关系信息,相关联系人在贷款业务中扮演着担保人的角色。目前的研究方法,主要是利用逻辑回归、决策树、随机森林等机器学习模型对金融交易特征进行分析,对于交易记录中的诸如联系人这样具有实体特征的属性,由于其离散化数量多方差大等特点,在建模过程中基本不予考虑,这些实体属性未能很好地表征和利用。尤其是在互联网信贷领域,借款申请人的社交关系在一定程度上能够反映该申请人较为准确的社会特征,对欺诈检测具有一定的作用。不同于传统的社交关系网络,金融交易网络是异质的非连通稀疏图,且带有属性。这就使得传统的社交网络分析方法无法运用,非连通性导致衡量网络传递性的指标失效,例如,标签染色算法、pagerank算法和聚类系数指标等;稀疏图的属性使得中心性指标意义不大;而节点的同质性是社会网络分析的前提,不同物理意义、不同属性特征的节点在图域中属于不同的维度空间。同时,社会网络分析仅仅根据图的图的拓扑结构进行分析,然而线上业务间的弱关系性,无法作为交易欺诈检测的唯一且可信的依据。因此,如何将关系网络应用到互联网金融业务的欺诈检测中来,目前没有现成可以借鉴的方法。线上借贷申请门槛低,申请对象一般不具有良好的抵押和信用机制,欺诈风险高于传统借贷方式。同时由于问题的特殊性,公开数据很少,在一定程度上限制了研究人员的研究进展。基于规则的专家系统和以机器学习为核心的数据挖掘方法是常用的反欺诈方式。专家系统是指建立在专家的规则之上,通过大量规则的组合来完成对欺诈交易的拦截,可解释性强。机器学习是在给定一组描述交易的特征的条件下,预测交易的异常可能性。Kulkarni和Ade提出了一个使用逻辑回归来解决信用卡欺诈检测中数据不平衡问题的框架,Panigrahi等人在信用卡诈骗的合成数据集上解决问题,使用Dempster-Schaefer加法器与贝叶斯模型,Sahin等人利用一家银行6个月的样本,研究了决策树识别信用卡欺诈交易的能力。金融欺诈检测领域正负样本分布不均衡,为了提高分类器的学习能力,许多学者开始采用基于有放回抽样(bagging)机制的随机森林以及多模型的集成学习算法等。这些方法只能通过人工特征工程挖掘交易属性和欺诈行为的简单关系,由于数据的复杂性和隐特征的存在,无法检测强隐蔽性的欺诈交易。以CNN为代表的深度学习技术能够自动提取特征,K.Fu等人提出通过卷积神经网络对信用卡欺诈进行检测。作为最基本的无监督学习方法之一的k-means也被应用于金融欺诈检测领域,此外,Dominik利用基于无标记聚类的SOM(self-organizingmaps)算法进行用户行为建模。这些研究方法都是通过对交易记录的特征分析建模,寻求群体间的共性和正常异常交易间的个体差异。网络信贷交易数据维度低、相关性低,存在许多实体类型的信息特征,例如家庭住址、联系人等信息。因此需要对相关实体进行关联分析,利用关系网络进行欺诈检测的思想逐渐被提出来,但是应用关系网络建模,挖掘金融欺诈落地的应用案例很少。关系网络的研究本质是图,图是一种抽象程度高、表达能力强的数据结构,它通过对节点和边的定义来描述实体与实体之间的关联关系。实际场景中,图表征学习应用在社交关系网络、商品网络、知识图谱等很多方面。传统的基于图的异常检测方法主要分两类:定量检测和定性解释,都是根据图上的结构信息,例如中心度指标、集聚系数等,进行离群点、异常值的检测等。这种做法虽然考虑了实体间的关系,但是仅适用于不带属性的图。而信贷交易网络是带属性的图,传统的图异常检测算法忽略了节点或边的自身属性,造成了大量有价值信息的丢失。网络表示学习算法将网络信息转化为低维、实值、稠密的向量形式。图表征学习的主要算法有:借鉴自然语言处理领域Word2vec的向量化思想,提出一种无监督算法node2vec,将图中的node信息向量化表示,起到降维的效果,并且提取图上特征的同时,能够保存网络结构信息。但是,node2vec是一种无监督的算法,没有利用节点本身的标签信息,无法针对特定的分类任务有效提取特征信息。CunchaoTu等人提出了一个网络表示学习(NRL)的节点判别模型max-marginDeepWalk(MMDW),用于寻找社交网络中顶点的预测表示,将标记信息合并到节点表示中,构建半监督分类模型,联合优化了基于最大边缘的分类器(如支持向量)和NRL模型。Franco等人提出了图神经网络模型(graphneuralnetwork)的思想,将神经网络应用在图数据结构中。目前,网络表征学习算法主要用于无差异同质节点之间的挖掘,异质网络中不同节点由于其特征维度不同,特征表征困难。同时,Vlasselaer等人指出,图模式挖掘很少作为一种独立的金融欺诈检测模型,基于图挖掘的关系网络金融欺诈检测可以作为其他传统模型的补充,挖掘潜在的欺诈关系。因此,通过借鉴图表征学习机制,将电子交易的欺诈检测问题转化为图中节点分类预测问题,通过对网络结构特征进行表征学习,实现节点的分类预测任务。
技术实现思路
本专利技术的目的是:利用实体属性间的关系信息,结合图表征与集成学习的优势用于欺诈检测。为了达到上述目的,本专利技术的技术方案是提供了一种基于实体关系的在线交易欺诈检测方法,包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法,其特征在于,包括以下步骤:(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程包括如下步骤:S101、划分数据集将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;S102、特征工程对于纯交易属性集合做特征工程,衍生变量;S103、原始网络构建对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的交易网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;S104、返回数据集;(2)金融交易二分图关系网络为异质网络,针对异质网络无法统一表征问题,利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H,包括以下步骤:S201、计算准备金融交易二分图关系网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以属性节点集合A为中心,计算属性节点集合A中的每个属性节点的邻居节点个本文档来自技高网
...

【技术保护点】
1.一种基于实体关系的在线交易欺诈检测方法,包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法,其特征在于,包括以下步骤:/n(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程包括如下步骤:/nS101、划分数据集/n将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;/nS102、特征工程/n对于纯交易属性集合做特征工程,衍生变量;/nS103、原始网络构建/n对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的交易网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;/nS104、返回数据集;/n(2)金融交易二分图关系网络为异质网络,针对异质网络无法统一表征问题,利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H,包括以下步骤:/nS201、计算准备/n金融交易二分图关系网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以属性节点集合A为中心,计算属性节点集合A中的每个属性节点的邻居节点个数;/nS203、节点收缩过程/n对于属性节点集合A中,邻居节点个数大于1的属性节点,将与其相连的交易节点直接相连,同时将该属性节点删除,构成同质网络H;/nS204、在同质网络H中删除重复出现的边;/nS205、同质化过程结束;/n(3)基于图的邻域信息聚合提升树方法,将交易特征通过关系网络进行信息融合,关注交易自身属性的同时,关注其邻域节点的属性,邻域信息聚合提升树算法以cart回归树作为基分类器,采用boosting串行基分类器的思想,每一棵新树的建立是为了拟合残差,包括以下步骤:/nS301、节点分裂依据/n加入防止过拟合的正则化操作,对残差进行二阶梯度拟合,加快收敛速度同时,对树的深度和宽度进行约束,得到目标函数:...

【技术特征摘要】
1.一种基于实体关系的在线交易欺诈检测方法,包括基于关系网络的同质化节点收缩算法和基于图表征与集成学习的邻域聚合提升树算法,其特征在于,包括以下步骤:
(1)构建交易实体与属性实体之间的金融交易二分图关系网络,本质上是异质的带有属性的非连通稀疏图,构建过程包括如下步骤:
S101、划分数据集
将交易数据根据属性是否具有实体意义,划分为纯交易属性集合和用于构建网络的实体关系集合;
S102、特征工程
对于纯交易属性集合做特征工程,衍生变量;
S103、原始网络构建
对于实体关系集合,进行交易实体和属性实体之间的连接,得到代表不同物理意义节点的交易网络,该交易网络的本质上异质的带有属性的非连通稀疏二分图,一部分是交易实体节点集合,另一部分是抽象化掉实际物理意义的实体属性节点集合;
S104、返回数据集;
(2)金融交易二分图关系网络为异质网络,针对异质网络无法统一表征问题,利用节点收缩算法对金融交易二分图关系网络进行同质化处理得到同质化网络H,包括以下步骤:
S201、计算准备
金融交易二分图关系网络包括交易节点集合T和属性节点集合A,各集合内部没有边,集合之间有边相连表示交易实体和其属性之间的表征关系,以属性节点集合A为中心,计算属性节点集合A中的每个属性节点的邻居节点个数;
S203、节点收缩过程
对于属性节点集合A中,邻居节点个数大于1的属性节点,将与其相连的交易节点直接相连,同时将该属性节点删除,构成同质网络H;
S204、在同质网络H中删除重复出现的边;
S205、同质化过程结束;
(3)基于图的邻域信息聚合提升树方法,将交易特征通过关系网络进行信息融合,关注交易自身属性的同时,关注其邻域节点的属性,邻域信息聚合提升树算法以cart回归树作为基分类器,采用boosting串行基分类器的思想,每一棵新树的建立是为了拟合残差,包括以下步骤:
S301、节点分裂依据
加入防止过拟合的正则化操作...

【专利技术属性】
技术研发人员:章昭辉蒋昌俊王鹏伟孟盈
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1