一种基于时序神经网络模型的欺诈用户检测系统技术方案

技术编号:29286886 阅读:16 留言:0更新日期:2021-07-17 00:01
本发明专利技术公开了一种基于时序神经网络模型的欺诈用户检测系统,包括:处理模块,用于面向用户上网行为的数据处理;提取模块,基于历史通话行为数据的特征提取;检测模块,基于时序神经网络模型的欺诈用户检测;修正模块,用于欺诈用户检测及修正。本发明专利技术的有益效果为:本发明专利技术考虑了用户上网行为序列和移动通话用户网络的拓扑关联,充分利用了用户历史上网行为、用户通话行为、用户地理位置等数据,提出了一种基于时序神经网络模型的欺诈用户检测方法,有效提升了预测效果。有效提升了预测效果。有效提升了预测效果。

A fraud user detection system based on temporal neural network model

【技术实现步骤摘要】
一种基于时序神经网络模型的欺诈用户检测系统


[0001]本专利技术涉及互联网金融领域反欺诈领域,具体来说,涉及一种基于时序神经网络模型的欺诈用户检测系统。

技术介绍

[0002]随着互联网的发展和普及,与互联网相结合的新兴产业也呈现出快速发展的态势。尤其是近年出现的互联网金融行业发展更是迅速。与此相伴的各种互联网金融平台和互联网金融系统也应运而生,蓬勃发展。像P2P互联网金融平台、众筹金融平台、电商小贷互联网金融平台、供应链金融互联网金融平台等等,这些平台对于优化金融游资配置,提高游资配置效率,解决中小企业融资难、融资贵的问题和中低收入散户的资产配置问题都起到了一定的积极作用。由于互联网金融平台的风险控制体系不规范、欺诈用户识别模块效果不佳,就给了“黑产”伪装成正常用户的机会。“黑产”借此来欺诈互联网金融平台,造成平台的巨大损失。
[0003]目前传统的欺诈用户识别方法大致可分为逻辑回归、GBDT、GBDT+LR 三类。上述模型将用户属性信息视为对象,将用户欺诈与否视为预测变量,提取用户年龄、用户职业情况、用户年平均收入、用户固定资产数额、以及分箱后的weight of evidence值等作为特征,然后选择随机森林、支持向量机、神经网络等构建模型。概括而言,现有方法主要基于客户的信用属性和基于专家经验的构造特征训练模型。然而,在互联网金融领域,存在着大量用户上网行为数据和通话行为数据。这些数据组成部分复杂,且所包含的信息量巨大,有产品页面停留时间、国际移动设备识别码、产品查看停留时间、IP地址、地理位置等等。面对这么大量且复杂的数据,传统的机器学习模型要想取得更好的效果,不仅需要耗费大量的时间和人力物力进行数据分析进而生成特征,而且也无法有效地学习用户行为之间的关联信息。
[0004]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]针对相关技术中的问题,本专利技术提出一种基于时序神经网络模型的欺诈用户检测系统及其挖掘方法,以克服现有相关技术所存在的上述技术问题。
[0006]本专利技术的技术方案是这样实现的:
[0007]根据本专利技术的一个方面,提供了一种基于时序神经网络模型的欺诈用户检测系统,包括:
[0008]处理模块,用于面向用户上网行为的数据处理;
[0009]提取模块,基于历史通话行为数据的特征提取;
[0010]检测模块,基于时序神经网络模型的欺诈用户检测;
[0011]修正模块,用于欺诈用户检测及修正。
[0012]优选的,上述面向用户上网行为的数据处理包括构建用户点击产品行为序列和提
取反欺诈领域的传统特征。
[0013]优选的,所述构建用户点击产品行为序列基于存储于数据库的用户上网行为中,提取原始用户点击行为序列,同时丢弃最后行为不是点击产品的用户点击行为序列;
[0014]需要注意的是,每个用户点击序列的序列长度k必须是一致的(长度 k=50),对于长度小于k的点击序列在序列后面补上空点击,对于长度小于k的点击序列截取最后的k次点击行为。
[0015]优选的,所述提取反欺诈领域的传统特征基于存储于数据库的用户上网行为中,提取反欺诈领域的传统特征,特征如下:
[0016]数值型特征:页面停留时长,页面加载时长;
[0017]类别型特征:浏览器语言,文本编码设置,操作系统,设备识别码。处理方法是做one-hot和提取相对应的weight of evidence特征;
[0018]IP:找到IP对应的地理位置,对IP和位置信息做one-hot并提取相对应的K-fold mean-target编码特征;
[0019]设备识别码:提取imei码的前2、前4、前6、前8位,并进行one-hot 化;
[0020]地理信息:GPS坐标,GPS坐标聚类结果,GPS坐标与聚类中心GPS 坐标之间的欧式距离、马氏距离;
[0021]URL信息:将URL分成6块,分别是URL类型,三级类别和产品以及请求http协议头携带的IP,这有可能是下游服务器的IP;
[0022]产品类别:产品类别可能过多,one-hot会导致维度爆炸。因此,本专利先对产品类别进行one-hot化之后使用PCA、NMF、LDA等方法压缩产品类别信息。
[0023]优选的,上述基于历史通话行为数据的特征提取包括构建移动通话用户行为网络、构建移动通话用户行为矩阵和基于复杂网络理论提取特征。
[0024]优选的,所述基于时序神经网络模型的欺诈用户检测包括数据集重采样、特征选择;
[0025]所述数据集重采样由于反欺诈领域常见的正负样本不平衡,同时对样本使用过采样与欠采样来减轻数据的不平衡程度和生产新的训练集;
[0026]所述特征选择本专利对那些传统反欺诈特征的特征选择的思路是“劣汰优胜”,先基于独立性检验剔除关联弱的特征,再从剩余特征中选择重要性高的特征;
[0027]对于数值型特征,本专利使用[Cui,Hengjian&Zhong,Wei.(2018).ADistribution-Free Test of Independence and Its Application to VariableSelection.]所提出的Mean Variance Test做“劣汰”;该方法可检验一个离散型变量与一个连续型变量间是否独立,对变量的分布无假定。对于类别型特征,本专利使用卡方拟合优度检验进行特征选择。该方法可检验一个离散型变量与一个离散型变量间是否独立,同样对变量的分布无假定。
[0028]根据本专利技术的另一方面,提供了一种基于时序神经网络模型的欺诈用户检测方法。
[0029]包括以下步骤:
[0030]步骤S201,基于存储于数据库的用户上网行为中,提取固定序列长度k 的用户点击产品行为序列和页面停留时长和加载时长等特征。在所提取序列中,最后的行为应当为
点击产品;
[0031]步骤S203,以移动通话用户为节点,基于历史通话行为数据构建动态移动通话用户行为网络。根据复杂网络理论和提取的移动通话用户行为网络,生成特征;
[0032]步骤S205,由于正负样本的不平衡,对样本进行重采样和特征选择生产训练集。基于多种时序神经网络模型学习历史数据,从而检测欺诈用户;
[0033]步骤S207,为了提高稳健性,依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对多个时序神经网络模型结果进行模型融合。
[0034]进一步的,上述检测欺诈用户中为了提高稳健性和模型效果,本专利步骤S105得到的多种预测概率依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对进行模型融合。
[0035]进一步的,对于“优胜”,本专利采用随机森林模型进行特征选择;随机森林模型通过bootstrap重抽样和随机特征选择机制生成多棵决策树,基于投本文档来自技高网
...

【技术保护点】

【技术特征摘要】
Free Test of Independence and Its Application to Variable Selection.]所提出的Mean Variance Test做“劣汰”;该方法可检验一个离散型变量与一个连续型变量间是否独立,对变量的分布无假定。对于类别型特征,本专利使用卡方拟合优度检验进行特征选择。该方法可检验一个离散型变量与一个离散型变量间是否独立,同样对变量的分布无假定。7.一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,用于权利要求6所述的基于时序神经网络模型的欺诈用户检测系统的使用,包括以下步骤:步骤S201,基于存储于数据库的用户上网行为中,提取固定序列长度k的用户点击产品行为序列和页面停留时长和加载时长等特征。在所提取序列中,最后的行为应当为点击产品;步骤S203,以移动通话用户为节点,基于历史通话行为数据构建动态移动通话用户行为网络。根据复杂网络理论和提取的移动通话用户行为网络,生成特征;步骤S205,由于正负样本的不平衡,对样本进行重采样和特征选择生产训练集。基于多种时序神经网络模型学习历史数据,从而检测欺诈用户;步骤S207,为了提高稳健性,依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对多个时序神经网络模型结果进行模型融合。8.根据权利要求7所述的一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,上述检测欺诈用户中为了提高稳健性和模型效果,本专利步骤S105得到的多种预测概率依次采用了调和平均值、几何平均值、算数平均值、Blending(模型混合)等方法对进行模型融合。9.根据权利要求7所述的一种基于时序神经网络模型的欺诈用户检测方法,其特征在于,...

【专利技术属性】
技术研发人员:李龙刘殿中
申请(专利权)人:联洋国融北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1