一种基于多阶段数据表征的网络借贷欺诈预测方法技术

技术编号：33208787 阅读：25 留言：0更新日期：2022-04-24 01:00

本发明专利技术属于网络借贷欺诈预测技术领域，公开了一种基于多阶段数据表征的网络借贷欺诈预测方法，包括以下步骤：步骤S101：根据原始网络借贷申请数据选定可用字段构建原始信息网络，然后将节点划分为实体和属性，构建由实体层和属性层组成的分层信息网络；步骤S102：从属性层中提取一个属性网络，给每个属性附加一个预训练的词向量来反映属性之间的语义相似性，利用网络表征学习将从先验和外部语义知识中获取的属性相似信息和属性共现关联融入属性对应的嵌入向量中；步骤S103，实体表征；步骤S104，欺诈预测。本发明专利技术增强了网络借贷申请事务中信息关联的密度，提高了网络借贷欺诈预测模型的检测能力，对保护用户和企业的资金安全有更好的保障。有更好的保障。有更好的保障。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多阶段数据表征的网络借贷欺诈预测方法

[0001]本专利技术涉及网络借贷欺诈预测
，尤其涉及一种基于多阶段数据表征的网络借贷欺诈预测方法。

技术介绍

[0002]目前随着互联网业务的日益扩大，借贷也随之进入新的发展阶段，互联网为借贷带来了便利，降低了借贷的门槛，实现了小额贷款的大量增加。然而互联网环境的复杂性和网络借贷的低门槛性增大了网络借贷发生欺诈的可能性，网络借贷的欺诈行为往往会给企业和社会带来不可控的巨额损失，造成结构性风险。为了保障互联网场景下网络借贷系统的业务安全，需要建立切实有效网络借贷欺诈预测方法。
[0003]传统的网络借贷反欺诈技术如黑白名单和业务规则等作为网络借贷反欺诈安全防线的第一道防线，既难以面临互联网场景下欺诈技术的快速进化，也不足以完全覆盖整个网络借贷的目标用户群体。因此，基于数字驱动范式的机器学习反欺诈技术可以作为第二道安全防线对网络借贷反欺诈安全防护领域进行补充。
[0004]目前，数据驱动范式是数字金融反欺诈任务的有效解决方案，相关工作已经被广泛研究，机器学习算法有助于实现更好的网络借贷反欺诈已经成为业界共识。例如，Liang等人在ACMSIGIR 2019会议上提出一种基于图学习算法的自动欺诈检测解决方案，将诈骗犯从老客户中分离出来，并发现有组织的诈骗犯。此外一部分研究人员进一步成功地结合机器学习技术和网络表征学习技术，如图神经网络，对挖掘隐藏在申请人数据中的深层关联。然而，当前网络借贷数据的规模往往很大，但是欺诈数据隐藏在海量...

【技术保护点】

【技术特征摘要】
1.一种基于多阶段数据表征的网络借贷欺诈预测方法，其特征在于，分为四个步骤：步骤S101，关联表征：根据原始网络借贷申请数据中字段缺失率选定可用字段，基于所述字段构建原始信息网络，然后将所述原始信息网络中的节点划分为实体和属性，构建由实体层和属性层组成的分层信息网络；提供给S102和S103；其中，缺失率是指在原始网络借贷数据集中一个字段缺失的次数与总借贷事务数量的比值；步骤S102，属性表征：从所述分层信息网络中的属性层中提取一个属性网络，给每个属性附加一个预训练的词向量来反映属性之间的语义相似性，利用网络表征学习将从先验和外部语义知识中获取的属性相似信息和属性共现关联融入属性对应的嵌入向量中；提供给S103；步骤S103，实体表征：从所述分层信息网络中实体层抽取实体网络，利用层对应关联和步骤S102中得到的嵌入向量，生成带属性的实体网络，采用网络表征学习将带属性的实体网络嵌入到低维向量空间得到实体的嵌入向量；提供给S104；步骤S104，欺诈预测：在带属性的实体网络中引入实体与其一阶邻居(实体)的相似性作为微观特征，采用借贷申请交易与属于实体网络中的二阶邻居之间的相似性作为宏观特征，将不同实体的嵌入向量的相似性喂入常见分类器模型实现欺诈预测功能。2.如权利要求1所述一种基于多阶段数据表征的网络借贷欺诈预测方法，其特征在于，所述步骤S101，其过程如下：获取原始网络借贷申请数据，基于测试需求设置训练集时间窗口和测试集时间窗口，以用于在原始网络借贷申请数据中划分出训练集数据和测试集数据，使得训练集数据和测试集数据构成可用于后续模型的网络借贷数据；对原始网络借贷数据进行字段选择；对所述选定的初始网络借贷数据的字段进行关联抽取，采用图结构描述网络借贷数据之间的关联，对所述的原始网络借贷数据中一笔申请的所选择的字段，使用星形拓扑结构构建原始信息网络：将其标识符和所有字段的取值表示为节点，将标识符和相应字段取值分别记为组成边的两个节点，不同的借贷申请标识符通过其共享的字段连接；将所述原始信息网络中的节点划分为实体和属性；实体集合V分为V
t
和V
d
两个部分，对于每一笔借贷申请，将其标识符记为v
t
∈V
t
，将所述申请中的其他实体记为v
d
∈V
d
；实体v
d
和标识符v
t
的共现关联被记为e＝(v
t
，v
d
，r)∈E，其中类型r∈R(R为对原始数据中所有实体的描述的集合)为原始数据中对于实体v
d
的描述，集合所有属性θ
v
的集合Θ记为分层信息网络中的属性层；从借贷申请中提取出实体和属性的对应关联，在所述原始信息网络中，属性θ
v
和实体v
d
都连接到实体v
t
，将属性θ
v
和实体v
d
之间的公共连接记为层对应关联(v
d
，θ
v
)，即实体和属性的对应关联；
在所述属性层中，将每个实体v∈V的对应的属性记为其中i表示属性的类型，通过对所述原始信息网络的处理，可以得到实体层、属性层和层对应关联，进而由实体层和属性层两层以及层对应关联构建一个分层信息网络。3.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法，其特征在于，对原始网络借贷数据进行字段选择时，选取缺失率低于50％的字段作为可用字段。4.如权利要求2所述一种基于多阶段数据表征的网络借贷欺诈预测方法，其特征在于，根据唯一性和不可分割性原则将所述原始信息网络中的节点划分为实体和属性；所述唯一性是指所选字段可以在描述一个对象的多个字段中唯一地表示同一对象；所述不可分割性指实体不包含潜在的信息，即一个唯一的值可以选为一个实体，那么所述实体与其他实体没有重叠的含义；符合唯一性和不可分割性的字段划分为实体，所述实体的集合V记为分层信息网络中的实体层；实体被选定后剩下的字段划分为属性，...

【专利技术属性】
技术研发人员：王成，朱航宇，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人