当前位置: 首页 > 专利查询>四川大学专利>正文

一种基于特征提取的信用卡欺诈检测方法技术

技术编号:27260511 阅读:30 留言:0更新日期:2021-02-06 11:17
信用卡由于支付便利、具有折扣和优惠、暂缓经济压力等优势被人们广泛使用,在这一过程中,越来越多的信用卡欺诈问题开始浮现,因此有效地检测信用卡欺诈至关重要。本发明专利技术提出一种基于特征提取的信用卡欺诈检测方法,该方法从数据出发,提取数据中包含的特征向量,使用图数据库去关联特征向量,再运用深度学习技术分析,从而实现自动快速地检测信用卡欺诈行为,提高检测的准确性。提高检测的准确性。提高检测的准确性。

【技术实现步骤摘要】
一种基于特征提取的信用卡欺诈检测方法


[0001]本专利技术提出了一种基于特征提取的信用卡欺诈检测方法,用于检测信用卡的欺诈行为。通过提取信用卡交易数据的特征向量,使用基于深度学习的算法从而实现自动快速地检测出信用卡交易中的欺诈行为。

技术介绍

[0002]紧随着互联网快速发展的脚步,人们的思维方式和生活方式也发生了翻天覆地的变化。人们从现金支付变成了网上支付,信用卡由于其具有能为持卡人提供支付便利,暂时缓解经济压力等优势,逐渐占领市场。由于信用卡支付是线上支付,这给人们带来了一些安全方面的困扰,主要包括三个方面:一是风险来源于持卡人,持卡人利用信用卡恶意透支;二是风险来源于商家,商家工作人员持卡离开顾客的视线,使用顾客的信用卡进行消费;三是风险来源于第三方,黑客攻击个人电脑,盗取用户信息。信用卡欺诈存在八种主要的欺诈应用场景:注册,登录,实名认证,商品浏览,下单,支付,评价和推广营销。
[0003]信用卡包含了大量的个人信息,银行业也在逐步地规避信用卡欺诈带来的风险和损失。他们使用先验知识对原始数据进行统计分析,使用逻辑回归方法去预测二项式结果,但是耗时较长。
[0004]随着深度学习技术的发展,深度学习在提取特征方面已经取得了令人瞩目的成绩。对信用卡欺诈行为的检测实际上是提取其中的文本信息、职业、手机号码、年龄等,使用图数据库关联特征向量,再运用深度学习技术分析,并对信用卡欺诈行为进行检测。

技术实现思路

[0005]本专利技术根据上述存在的问题以及现有的技术,提出一种基于特征提取的信用卡欺诈检测方法,用于检测信用卡的欺诈行为,具体方法如下:(1)针对从网上公开获取的数据集进行样本标记,将样本分为正常样本集和欺诈样本集;(2)对标记后的样本集进行空值判断,删除掉缺失的数据;(3)利用分类类型固定的特征提升模型分类的效率;(4)使用Smote算法平衡信用卡交易数据集,并且按照训练集和测试集7:3的比例对样本集进行划分;(5)对样本数据集进行文本信息筛选,统计一些高频词出现的次数;(6)将信息筛选后的文本进行训练从而得到词向量模型,利用此模型可以获取与信用卡欺诈相关的特征向量;(7)基于Neo4j图数据库对词向量模型提取的特征向量进行关联,得到新的关系点,最终获得处理好的特征向量;(8)把最终的特征向量输入深度信念网络DBN中,训练出分类器以构建信用卡欺诈检测模型。
[0006]依据上述方法,本专利技术采用了如下的技术方案:基于特征提取的信用卡欺诈检测方法主要包括了三个模块:数据预处理模块、文本特征提取模块、信用卡欺诈检测模块,每个模块应包含相应的功能。
[0007]数据预处理模块:(1)样本标记。对于从网上公开获取的信用卡交易样本集, 其中有一项命名为fraud的标签,标签值为1代表是欺诈样本,标签值为0代表是正常样本。因此,将样本集分为两类:欺诈样本集和正样本集;(2)样本检测。样本集中的某些样本存在缺失信息,于是需要对样本集进行空值判断,最后处理掉缺失的数据;(3)特征分类。信用卡交易数据集中的有些特征的分类类型是固定的,利用这些特征划分对应的类别以提高模型的训练效率;(4)平衡数据集。当合法交易和欺诈交易的比例为1:1时,欺诈检测的召回率最好。在本文中,因此本专利技术选择用Smote算法去平衡信用卡交易的数据集,并且将样本集进行划分,70%用作训练集,30%用作测试集。
[0008]文本特征提取模块:(1)文本信息筛选。在收集到的信用卡交易数据集中,有一列是跟交易相关的文本信息,其中涵盖的内容对于后续的分类流程是很重要的。一般情况下,主题由若干个具有较高概率分布的单词表示,因此可以统计一些高频词在信用卡交易文本信息中出现的次数;(2)生成词向量。文本信息过滤后的特征信息是词向量训练过程中的初始输入值,本专利技术利用Python中自然语言处理库Gensim先来处理文本,然后再利用优化的word2vec训练文本,从而形成词向量模型,输出词向量。
[0009]信用卡欺诈检测模块:(1)网络构建。利用图数据库Neo4j建立特征之间的关系,观察这种“关系”和真实情况之间的区别,从而识别欺诈;(2)模型训练。在文本特征提取模块输出的特征向量的基础上,使用深度信念网络(DBN)进行训练,并且不断调整参数以训练出效果最优的信用卡欺诈检测模型;(3)模型评估。利用信用卡测试集,对训练出的欺诈检测模型进行评估。
附图说明
[0010]为了更清楚地说明本专利技术的技术方案,下面将对本专利技术的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实例,对于本领域的普通技术人员来讲,在不付出创造劳动性的前提下,还可以根据这些附图获得其他的附图。
[0011]图 1 是本专利技术的架构示意图。
[0012]图 2 是本专利技术的数据预处理模块示意图。
[0013]图 3 是本专利技术的文本特征提取模块示意图。
[0014]图 4 是本专利技术的信用卡欺诈检测模块示意图。
具体实施方式
[0015]下面将结合专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,
所描述的实施例是本专利技术所有实施例的一部分,而不是全部的实施例。基于本申请中的实施例,本领域的普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本申请的保护范围。
[0016]紧随着互联网快速发展的脚步,人们的思维方式和生活方式也发生了翻天覆地的变化。信用卡由于其具有能为持卡人提供支付便利,暂时缓解经济压力等优势,逐渐占领市场。在消费的支付方式上,人们同样也逐渐从现金支付转换到了到信用卡支付。当然这一转换过程也带来了一些安全方面的问题,这些问题主要包括三个方面:一是来源于持卡人,持卡人利用信用卡恶意透支,如发放高利贷,在挂失的极短时间内大量使用挂失卡;二是来源于商家,商家工作人员持卡离开顾客的视线,使用顾客的信用卡进行消费;三是来源于第三方,黑客攻击了个人电脑,当用户在网上用个人信用卡登录账户密码时,黑客盗取了用户的信息。为了解决专利技术人发现的存在的上述几种关于信用卡欺诈方面的安全问题,专利技术人提出以下技术方案。
[0017]参考图1,图1是本专利技术提出的基于特征提取的信用卡欺诈检测方法的整体架构示意图。如图1所示,本专利技术所提出的方法主要由三个模块构成,包括了数据预处理模块、文本特征提取模块、信用卡欺诈检测模块。
[0018]数据预处理模块主要实现对样本的标记,缺失值的检测,特征分类和不平衡数据集的处理。
[0019]文本特征提取模块主要实现词向量模型的训练,构建词向量字典,生成词向量。
[0020]信用卡欺诈检测模块主要实现利用Neo4j展示数据,欺诈检测模型训练,模型检测结果的评估。
[0021]参考图2,图2是本专利技术的数据预处理模块的示意图。如图2所示,该模块主要包括以下步骤。
[0022]样本标记:对网上公开获取的信用卡交易样本集进行标记,将样本集分为两类:欺诈样本集和正常样本集。
[0023]样本检测:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征提取的信用卡欺诈检测方法,其特征在于包括以下步骤:A、预处理数据,对信用卡交易数据平衡化,让正常数据和欺诈数据一样多,在训练阶段,还需要对样本进行标记和检测;B、对平衡后的信用卡交易数据使用一定数学方法提取其中的特征向量;C、基于优化后的word2vec算法进行词向量模型的训练及词向量的提取;D、使用word2vec算法进行词向量模型训练及词向量提取之前,基于TF-IDF算法进行优化;E、使用图数据库去关联提取出的特征向量;F、收集的真实场景下的信用卡交易数据构建了训练集;根据深度信念网络分类算法对训练集进行训练,对信用卡行为的正常性和欺诈性进行预测;G、将检测结果返回至检测报告。2.跟据权利要求1...

【专利技术属性】
技术研发人员:方勇黄诚张芸芸张与驰
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1