一种套用商户类别码欺诈行为的检测方法技术

技术编号:12565279 阅读:41 留言:0更新日期:2015-12-23 09:25
本发明专利技术公开了一种套用商户类别码欺诈行为的检测方法,首先通过获取正常商户交易数据并进行预处理、层次聚类获取标准行为模式;然后,按照正常商户:套用商户=1:1的数量,随机抽取正常商户、套用商户的交易流水数据并获取各商户的86维特征的交易数据向量,通过欧式距离计算获取一个9维特征进行叠加,得到95维的特征向量,通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数,从而得到分类器;最后依据新用户的一年的交易流水数据构造一个95维的特征向量送入分类器分类,检测出是否是套用商户。本发明专利技术利用计算机系统,能够从多个维度对商户行为进行识别,从而高效准确地检测出商户套用。

【技术实现步骤摘要】

本专利技术属于信息分类处理
,更为具体地讲,涉及一种套用商户类别码欺 诈行为的检测方法,用于识别套用商户类别码进行欺诈的商户。
技术介绍
近年来,随着经济的高速发展,POS机(Point of Sale,销售点情报管理系统)在 商户间也得到了不断普及。安装POS机中的商户涉及了各行各业,而不同行业在POS机使 用中所收取的手续费亦不尽相同,一些第三方支付机构套用商户类别码享受低手续费率的 行为也与日倶增,套用商户类别码的欺诈行为造成了发卡方巨额的损失,严重扰乱POS收 单行业的金融秩序、让POS收单行业滋生不安全因素、是二次清算的病因。 目前国内的文献对套用商户类别码欺诈检测技术的研究比较少,主要集中在信用 卡欺诈检测研究。对于传统的套用商户类别码欺诈行为的检测,除了通过法律约束和商户 自身道德素质约束,更多的是通过银联调查员实地考察从而发现套用商户,这往往是费时 费力的。
技术实现思路
本专利技术的目的在于克服上述人工检测的不足,提供一种套用商户类别码欺诈行为 的检测方法,以提高识别套用商户类别码进行欺诈的商户的效率。 为实现上述专利技术目的,本专利技术套用商户类别码欺诈行为的检测方法,其特征在于, 包括以下步骤: (1)、获取标准行为模式 I. 1)、获取正常商户交易数据并进行预处理 通过银联内部数据库获取每个商户类别码下N个正常商户一年的交易流水数据, 对每个正常商户一年的交易流水数据进行标准初始化即对正常商户交易流水数据,按照小 时、星期天数、月时间尺度分别统计交易量,最终将交易流水数据表示为具有86维特征的 交易数据向量: Xi= (x J1, xi 2, . . . , XijG), I ^ i ^ N, G = 86, 其中,i表示正常用户编号,N表示正常商户数量; 所述的86维特征的交易数据向量包括24个按小时统计的交易量以及24个按小 时统计的交易量的一阶导数、7个按周一到周日统计的交易量以及7个按周一到周日统计 的交易量的一阶导数、12个按月统计的交易量以及12个按月统计的交易量的一阶导数; 86维特征的交易数据向量按维进行归一化处理: 其中,Xi nin为第j维的最小值,X i nax为第j维的最大值,X' I j为第i个用户的第 j维数据的归一化后的数据; I. 2)、删除异常交易数据向量 将获取的各个正常用户的86维特征的交易数据向量中异常交易数据向量删除, 得到M个86维特征的交易数据向量; 1. 3)、层次聚类获取标准行为模式 对每个商户类别码下的M个86维特征的交易数据向量运用层次聚类,将相似的商 户行为模式聚成一类,得到每个商户类别码下的一组分别基于小时、星期天数、月等时间尺 度的标准行为模式。 (2)、分类器训练 2. 1)、获取商户交易数据并进行预处理 从银联内部数据库中,按照正常商户:套用商户=1:1的数量,随机抽取正常商 户、套用商户,然后按照步骤I. 1)的方法,将他们一年的交易流水数据分别表示为具有86 维特征的交易数据向量并进行归一化处理; 计算每一个商户的交易数据向量与步骤(1)得到的所有商户类别码下的所有标 准行为模式的欧式距离,并且按照距离由小到大形成一个排名表;从排名表中,取距离最小 (匹配程度最高)的标准行为模式的商户类别码作为该商户最相近的商户类别码,从而获 取与商户类别码相关的9维特征: 该商户注册的商户类别码、最相近商户类别码、商户手续费等级、最相近商户手续 费等级、商户小类ID、最相近商户小类ID、商户小类ID与最相近商户小类ID的差值、商户 类别码在排名表中的名次、警告级别; 将上述与商户类别码相关的9维特征叠加到该商户交易数据向量上,得到95维 的特征向量; 2. 2)、建立分类器模型 将正常商户的真实结果作为0、套用商户的真实结果作为1,抽取正常商户、套用 商户的95维的特征向量作为输入特征向量,通过批量梯度下降方法不断训练得到逻辑斯 蒂回归模型的参数,从而得到分类器; (3)、分类器分类 获取新商户一年的交易流水数据按照步骤(2)的方法进行向量化得到95维特征 向量X_= (X nf3Wil, ...,,,代入步骤(2)得到分类器进行计算,得到一个概率 值; 将得到的概率值与设定的阈值作比较,当大于设定的阈值时,该新商户为套用商 户,否则为正常商户。 本专利技术的目的是这样实现的 本专利技术套用商户类别码欺诈行为的检测方法,首先通过获取正常商户交易数据并 进行预处理、层次聚类获取标准行为模式;然后,按照正常商户:套用商户=1:1的数量,随 机抽取正常商户、套用商户的交易流水数据并获取各商户的86维特征的交易数据向量,通 过欧式距离计算获取一个9维特征进行叠加,得到95维的特征向量,通过批量梯度下降方 法不断训练得到逻辑斯蒂回归模型的参数,从而得到分类器;最后依据新用户的一年的交 易流水数据构造一个95维的特征向量送入分类器分类,检测出是否是套用商户。本专利技术利 用计算机系统,能够从多个维度对商户行为进行识别,从而高效准确地检测出商户套用。【附图说明】 图1是本专利技术套用商户类别码欺诈行为的检测方法一种【具体实施方式】流程图; 图2是图1所示异常数据一具体实例图; 图3是图1所示层次聚类中异常数据分布示意图; 图4是图1所示标准行为模式一具体实例图; 图5是不同商户类别码阈值变化曲线图。【具体实施方式】 下面结合附图对本专利技术的【具体实施方式】进行描述,以便本领域的技术人员更好地 理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许 会淡化本专利技术的主要内容时,这些描述在这里将被忽略。 本专利技术利用聚类、分类、异常检测等数据挖掘方法提供一种套用商户类别码欺诈 行为的检测方法。套用商户类别码欺诈行为的检测是对欺诈可能性的一种量化判断,首先 根据正常商户历史交易数据构造分离器模型,然后利用该模型对新商户的交易行为进行分 析和处理,从中识别该商户是否是套用商户。 图1是本专利技术套用商户类别码欺诈行为的检测方法一种【具体实施方式】流程图。 在本实施例中,如图1所示,本专利技术套用商户类别码欺诈行为的检测方法包括三 个大的步骤,即获取标准行为模式、分类器训练、分类器分类,具体如下。 一、获取标准行为模式 不同的行业有不同的行业营业时间区间、营业高峰或者低谷等的营业规律,因此 我们将同一类行业中商户具有的整体营业规律称之为该行业的"行为模式"。 1、获取正常商户交易数据并进行预处理 通过银联内部数据库获取每个商户类别码下N个正常商户一年的交易流水数据 (存在少部分异常数据),对每个正常商户一年的交易流水数据进行标准初始化。 因为交易流水数据的敏感性,我们只能获取如表1所示的商户交易流水数据,每 行数据包括商户ID、MCC(商户类别码)、商户扣率、月、周、时、交易量、交易额、套用标签9 列属性。每一行数据描述了该商户的一部分基本属性和该商户在某月的周几的某个时间段 (1小时)内总的交易笔数和交易金额。最后一列表示该是否商户被业务部门标记为套用 商户,其中"〇"为未套用商户类别码的正常商户、" 1"表示确定为套用商户类别码的套用商 户。CN 105184574 A 说明书 4/11 页 表1 对某个商户类别码下选出的正常商本文档来自技高网...

【技术保护点】
一种套用商户类别码欺诈行为的检测方法,其特征在于,包括以下步骤:(1)、获取标准行为模式1.1)、获取正常商户交易数据并进行预处理通过银联内部数据库获取每个商户类别码下N个正常商户一年的交易流水数据,对每个正常商户一年的交易流水数据进行标准初始化即对正常商户交易流水数据,按照小时、星期天数、月时间尺度分别统计交易量,最终将交易流水数据表示为具有86维特征的交易数据向量:xi=(xi,1,xi,2,…,xi,G),1≤i≤N,G=86;所述的86维特征的交易数据向量包括24个按小时统计的交易量以及24个按小时统计的交易量的一阶导数、7个按周一到周日统计的交易量以及7个按周一到周日统计的交易量的一阶导数、12个按月统计的交易量以及12个按月统计的交易量的一阶导数;86维特征的交易数据向量按维进行归一化处理:xi,j′=xi,j-xi,minxi,max-xi,min,]]>其中,xi,min为第j维的最小值,xi,max为第j维的最大值,x'i,j为第i个用户的第j维数据的归一化后的数据;1.2)、删除异常交易数据向量将获取的各个正常用户的86维特征的交易数据向量中异常交易数据向量删除;1.3)、层次聚类获取标准行为模式对每个商户类别码下的M个86维特征的交易数据向量运用层次聚类,将相似的商户行为模式聚成一类,得到每个商户类别码下的一组分别基于小时、星期天数、月等时间尺度的标准行为模式。(2)、分类器训练2.1)、获取商户交易数据并进行预处理从银联内部数据库中,按照正常商户:套用商户=1:1的数量,随机抽取正常商户、套用商户,然后按照步骤1.1)的方法,将他们一年的交易流水数据分别表示为具有86维特征的交易数据向量并进行归一化处理;计算每一个商户的交易数据向量与步骤(1)得到的所有商户类别码下的所有标准行为模式的欧式距离,并且按照距离由小到大形成一个排名表;从排名表中,取距离最小(匹配程度最高)的标准行为模式的商户类别码作为该商户最相近的商户类别码,从而获取与商户类别码相关的9维特征:该商户注册的商户类别码、最相近商户类别码、商户手续费等级、最相近商户手续费等级、商户小类ID、最相近商户小类ID、商户小类ID与最相近商户小类ID的差值、商户类别码在排名表中的名次、警告级别;将上述与商户类别码相关的9维特征叠加到该商户交易数据向量上,得到95维的特征向量;2.2)、建立分类器模型将正常商户的真实结果作为0、套用商户的真实结果作为1,抽取正常商户、套用商户的95维的特征向量作为输入特征向量,通过批量梯度下降方法不断训练得到逻辑斯蒂回归模型的参数,从而得到分类器;(3)、分类器分类获取新商户一年的交易流水数据按照步骤(2)的方法进行向量化得到95维特征向量xnew=(xnew,1,xnew,2,…,xnew,95),,代入步骤(2)得到分类器进行计算,得到一个概率值;将得到的概率值与设定的阈值作比较,当大于设定的阈值时,该新商户为套用商户,否则为正常商户。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘震林霞霞傅彦李忠洵
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1