当前位置: 首页 > 专利查询>同济大学专利>正文

一种基于多阶段数据表征的网络借贷欺诈预测方法技术

技术编号:33208787 阅读:25 留言:0更新日期:2022-04-24 01:00
本发明专利技术属于网络借贷欺诈预测技术领域,公开了一种基于多阶段数据表征的网络借贷欺诈预测方法,包括以下步骤:步骤S101:根据原始网络借贷申请数据选定可用字段构建原始信息网络,然后将节点划分为实体和属性,构建由实体层和属性层组成的分层信息网络;步骤S102:从属性层中提取一个属性网络,给每个属性附加一个预训练的词向量来反映属性之间的语义相似性,利用网络表征学习将从先验和外部语义知识中获取的属性相似信息和属性共现关联融入属性对应的嵌入向量中;步骤S103,实体表征;步骤S104,欺诈预测。本发明专利技术增强了网络借贷申请事务中信息关联的密度,提高了网络借贷欺诈预测模型的检测能力,对保护用户和企业的资金安全有更好的保障。有更好的保障。有更好的保障。

【技术实现步骤摘要】
一种基于多阶段数据表征的网络借贷欺诈预测方法


[0001]本专利技术涉及网络借贷欺诈预测
,尤其涉及一种基于多阶段数据表征的网络借贷 欺诈预测方法。

技术介绍

[0002]目前随着互联网业务的日益扩大,借贷也随之进入新的发展阶段,互联网为借贷带来了 便利,降低了借贷的门槛,实现了小额贷款的大量增加。然而互联网环境的复杂性和网络借 贷的低门槛性增大了网络借贷发生欺诈的可能性,网络借贷的欺诈行为往往会给企业和社会 带来不可控的巨额损失,造成结构性风险。为了保障互联网场景下网络借贷系统的业务安全, 需要建立切实有效网络借贷欺诈预测方法。
[0003]传统的网络借贷反欺诈技术如黑白名单和业务规则等作为网络借贷反欺诈安全防线的第 一道防线,既难以面临互联网场景下欺诈技术的快速进化,也不足以完全覆盖整个网络借贷 的目标用户群体。因此,基于数字驱动范式的机器学习反欺诈技术可以作为第二道安全防线 对网络借贷反欺诈安全防护领域进行补充。
[0004]目前,数据驱动范式是数字金融反欺诈任务的有效解决方案,相关工作已经被广泛研究, 机器学习算法有助于实现更好的网络借贷反欺诈已经成为业界共识。例如,Liang等人在ACMSIGIR 2019会议上提出一种基于图学习算法的自动欺诈检测解决方案,将诈骗犯从老客户中 分离出来,并发现有组织的诈骗犯。此外一部分研究人员进一步成功地结合机器学习技术和 网络表征学习技术,如图神经网络,对挖掘隐藏在申请人数据中的深层关联。然而,当前网 络借贷数据的规模往往很大,但是欺诈数据隐藏在海量的正常数据中,这个给网络借贷反欺 诈预测带来了巨大的挑战。由于数据是受限的,用于欺诈预测的有用信息通常不足,仅仅依 靠低信息密度的申请信息难以建立数据驱动范式模型。
[0005]通过以上研究发现,面向网络借贷反欺诈预测的一个主要问题可以归结为申请信息的信 息密度太低以至于数据无法直接应用于网络借贷欺诈预测任务。现有的一些相关工作直接对 完整的原始信息的载体进行操作,以充分保存有用信息,由于有用信息被埋在大量无用信息 中,通常效果不佳。另一部分工作通过丢弃部分信息来减小信息载体的规模,克服无用信息 的影响,这导致信息的不完整,通常会大大降低欺诈预测的性能。

技术实现思路

[0006]本专利技术目的在于克服现有技术的不足,提出了一种基于网络表征学习的多阶段数据表征 方法,作为提升信息密度的增强器,同时通过增加有用信息和减少信息载体两种策略来提高 信息密度,实现数据的增强,改善机器学习模型的反欺诈能力。
[0007]本专利技术所要解决的技术问题是网络借贷反欺诈场景下传统的欺诈预测方法,难以应对关 联稀疏的借贷数据,无法捕捉借贷申请之间的深度关联。因此仅利用基本的申请信息,难以 构建高效的反欺诈模型,并缺乏较好的泛化能力。
[0008]为了解决上述技术问题,本专利技术技术方案为:
[0009]一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,分为四个步骤:
[0010]步骤S101,关联表征:
[0011]根据原始网络借贷申请数据中字段缺失率选定可用字段,基于所述字段构建原始信息网 络,然后将所述原始信息网络中的节点划分为实体和属性,构建由实体层和属性层组成的分 层信息网络;提供给S102和S103;
[0012]其中,缺失率是指在原始网络借贷数据集中一个字段缺失的次数与总借贷事务数量的比 值;
[0013]步骤S102,属性表征:
[0014]从所述分层信息网络中的属性层中提取一个属性网络,给每个属性附加一个预训练的词 向量来反映属性之间的语义相似性,利用网络表征学习将从先验和外部语义知识中获取的属 性相似信息和属性共现关联融入属性对应的嵌入向量中;提供给S103;
[0015]步骤S103,实体表征:
[0016]从所述分层信息网络中实体层抽取实体网络,利用层对应关联和步骤S102中得到的嵌入 向量,生成带属性的实体网络,采用网络表征学习将带属性的实体网络嵌入到低维向量空间 得到实体的嵌入向量;提供给S104;
[0017]步骤S104,欺诈预测:
[0018]在带属性的实体网络中引入实体与其一阶邻居(实体)的相似性作为微观特征,采用借 贷申请交易与属于实体网络中的二阶邻居之间的相似性作为宏观特征,将不同实体的嵌入向 量的相似性喂入常见分类器模型实现欺诈预测功能。
[0019]所述步骤S101,其过程如下:
[0020]获取原始网络借贷申请数据,基于测试需求设置训练集时间窗口和测试集时间窗口,以 用于在原始网络借贷申请数据中划分出训练集数据和测试集数据,使得训练集数据和测试集 数据构成可用于后续模型的网络借贷数据;
[0021]对原始网络借贷数据进行字段选择;
[0022]对所述选定的初始网络借贷数据的字段进行关联抽取,采用图结构描述网络借贷数据之 间的关联,对所述的原始网络借贷数据中一笔申请的所选择的字段,使用星形拓扑结构构建 原始信息网络:将其标识符(即数据集中唯一表明一笔借贷申请的编号,一般无实际意义, 如一笔借贷订单的订单号)和所有字段(如一笔借贷申请中的申请人、申请人地址、申请人 手机号码等)的取值表示为节点,将标识符和相应字段取值分别记为组成边的两个节点,不 同的借贷申请标识符通过其共享的字段连接;
[0023]将所述原始信息网络中的节点划分为实体和属性;
[0024]实体集合V分为V
t
和V
d
两个部分,对于每一笔借贷申请,将其标识符记为v
t
∈V
t
,将所 述申请中的其他实体记为v
d
∈V
d
;实体v
d
和标识符v
t
的共现关联(即共同出现在一笔申请中) 被记为e=(v
t
,v
d
,r)∈E(E为所有共现关联的集合),其中类型r∈R(R为对原始数据中所 有实体的描述的集合)为原始数据中对于实体v
d
的描述,集合(
×
为笛卡尔积 操作);
[0025]所有属性θ
v
的集合Θ记为分层信息网络中的属性层;
[0026]从借贷申请中提取出实体和属性的对应关联(即属性对应地描述一个实体),在所述原 始信息网络中,属性θ
v
和实体v
d
都连接到实体v
t
,将属性θ
v
和实体v
d
之间的公共连接记
为层 对应关联(v
d
,θ
v
),即实体和属性的对应关联;
[0027]在所述属性层中,将每个实体v∈V的对应的属性记为其中i表示属性的类型,通过 对所述原始信息网络的处理,可以得到实体层、属性层和层对应关联,进而由实体层和属性 层两层以及层对应关联构建一个分层信息网络。
[0028]优选的,选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,分为四个步骤:步骤S101,关联表征:根据原始网络借贷申请数据中字段缺失率选定可用字段,基于所述字段构建原始信息网络,然后将所述原始信息网络中的节点划分为实体和属性,构建由实体层和属性层组成的分层信息网络;提供给S102和S103;其中,缺失率是指在原始网络借贷数据集中一个字段缺失的次数与总借贷事务数量的比值;步骤S102,属性表征:从所述分层信息网络中的属性层中提取一个属性网络,给每个属性附加一个预训练的词向量来反映属性之间的语义相似性,利用网络表征学习将从先验和外部语义知识中获取的属性相似信息和属性共现关联融入属性对应的嵌入向量中;提供给S103;步骤S103,实体表征:从所述分层信息网络中实体层抽取实体网络,利用层对应关联和步骤S102中得到的嵌入向量,生成带属性的实体网络,采用网络表征学习将带属性的实体网络嵌入到低维向量空间得到实体的嵌入向量;提供给S104;步骤S104,欺诈预测:在带属性的实体网络中引入实体与其一阶邻居(实体)的相似性作为微观特征,采用借贷申请交易与属于实体网络中的二阶邻居之间的相似性作为宏观特征,将不同实体的嵌入向量的相似性喂入常见分类器模型实现欺诈预测功能。2.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,所述步骤S101,其过程如下:获取原始网络借贷申请数据,基于测试需求设置训练集时间窗口和测试集时间窗口,以用于在原始网络借贷申请数据中划分出训练集数据和测试集数据,使得训练集数据和测试集数据构成可用于后续模型的网络借贷数据;对原始网络借贷数据进行字段选择;对所述选定的初始网络借贷数据的字段进行关联抽取,采用图结构描述网络借贷数据之间的关联,对所述的原始网络借贷数据中一笔申请的所选择的字段,使用星形拓扑结构构建原始信息网络:将其标识符和所有字段的取值表示为节点,将标识符和相应字段取值分别记为组成边的两个节点,不同的借贷申请标识符通过其共享的字段连接;将所述原始信息网络中的节点划分为实体和属性;实体集合V分为V
t
和V
d
两个部分,对于每一笔借贷申请,将其标识符记为v
t
∈V
t
,将所述申请中的其他实体记为v
d
∈V
d
;实体v
d
和标识符v
t
的共现关联被记为e=(v
t
,v
d
,r)∈E,其中类型r∈R(R为对原始数据中所有实体的描述的集合)为原始数据中对于实体v
d
的描述,集合所有属性θ
v
的集合Θ记为分层信息网络中的属性层;从借贷申请中提取出实体和属性的对应关联,在所述原始信息网络中,属性θ
v
和实体v
d
都连接到实体v
t
,将属性θ
v
和实体v
d
之间的公共连接记为层对应关联(v
d
,θ
v
),即实体和属性的对应关联;
在所述属性层中,将每个实体v∈V的对应的属性记为其中i表示属性的类型,通过对所述原始信息网络的处理,可以得到实体层、属性层和层对应关联,进而由实体层和属性层两层以及层对应关联构建一个分层信息网络。3.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,对原始网络借贷数据进行字段选择时,选取缺失率低于50%的字段作为可用字段。4.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法,其特征在于,根据唯一性和不可分割性原则将所述原始信息网络中的节点划分为实体和属性;所述唯一性是指所选字段可以在描述一个对象的多个字段中唯一地表示同一对象;所述不可分割性指实体不包含潜在的信息,即一个唯一的值可以选为一个实体,那么所述实体与其他实体没有重叠的含义;符合唯一性和不可分割性的字段划分为实体,所述实体的集合V记为分层信息网络中的实体层;实体被选定后剩下的字段划分为属性,...

【专利技术属性】
技术研发人员:王成朱航宇
申请(专利权)人:同济大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1