一种基于异构金融特征的异常交易识别方法,设备及存储介质技术

技术编号:19694877 阅读:28 留言:0更新日期:2018-12-08 11:57
本发明专利技术提供一种基于异构金融特征的异常交易识别方法,设备及存储介质,能够利用疑似异常或与某些确定异常账号相关的大量待检测金融交易流水信息数据,提取自定义交易熵特征和交易活跃度、金额统计特征,并构建异构金融特征向量表示,然后基于异构特征向量利用投票分类器进行待检测交易账号是否为传销异常交易关系的分类识别。本发明专利技术提出的可疑金融交易关系识别方法利用金融交易流水数据实现了对交易主体复杂行为规律特征的较丰富的抽象和表达,取得较好的异常金融交易关系检测识别效果。本方法提供的异常金融交易关系检测结果可以辅助相关工作人员进行传销等异常金融活动的侦查研判,在一定程度上可以提高工作效率以及提高研判准确率。

【技术实现步骤摘要】
一种基于异构金融特征的异常交易识别方法,设备及存储介质
本专利技术涉及金融交易领域,尤其涉及一种基于异构金融特征的异常交易识别方法,设备及存储介质。
技术介绍
金融系统是现代经济发展重要支柱之一,随着金融系统的网络化、信息化发展,资本流动加速,金融交易机构如银行每日处理的交易流水可达几百万甚至上千万的量级,这为隐匿在金融网络中的经济犯罪活动提供了很大便利。而在海量的交易数据中,蕴含着更为复杂的客户交易行为模式和规律等深层信息,利用这些信息可对数据中隐藏的异常的交易行为进行甄别和检测。异常金融交易包括如洗钱、传销、信用卡诈骗、非法集资等违法犯罪活动所涉及到的金融交易,这些金融交易行为扰乱了经济和社会秩序,给社会治安造成危害。其中,传销即所谓的“金字塔营销”,传销组织通过申购和返利的形式发展下线,资金最终汇集流入传销头目或其控制的银行账户中。国内非法传销涉案金额大、涉案人员多、发展速度快,危害极大。传统传销活动侦查分析方法中,通过银行资金流数据分析是进行传销账号识别和获取其组织架构的有效手段,但是这种方法属于劳动密集型,耗费大量时间和人力,实践过程中存在一定的漏检率。异常金融交易识别相关的学术研究多集中在反洗钱、非法集资等邻域。反洗钱领域中,基于流数据的频繁项挖掘、朴素贝叶斯以及RBF简单神经网络等方法在洗钱异常交易的识别中取得了很好的效果。目前,国内相关传销组织发现领域的研究还主要集中在网络拓扑结构特征挖掘的基础上,利用图论等理论知识和特征去发现和识别传销网络。但这种方法依赖于数据中存在较完整的网络或信息量较大的局部拓扑结构,在相关结构不够完整的情况下,会导致识别率或准确率低。机器学习方法在传销异常金融交易识别领域的应用还相对较少,现有的分枝树等数学模型还是过多的依赖于人工提取的传销发展的复杂模式和演化规律,没有充分发掘机器学习中更加智能化和高效的统计方法,而且在海量数据处理方面存在一定缺陷。当前,尚未有一套基于异构金融特征的有效的机器学习方案,对传销异常金融交易关系能够进行有效的检测和识别。这里的金融交易关系是指金融交易流水中的交易对手账号,简称交易对。异常金融交易关系表示交易对在交易流水数据中表现出的交易行为异常程度较高,那么相对应的两个交易对手人员的异常程度可能性也较大。
技术实现思路
为了克服上述现有技术中的不足,本专利技术提供一种基于异构金融特征的异常交易识别方法,方法包括:步骤一,对输入的原始金融交易流水数据集,进行数据预处理;数据预处理方式为数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D;构建信息数据集Dtp和账号信息数据集Dc;步骤二,基于交易对信息数据集Dtp,构建交易熵特征向量数据集合DtpH;步骤三,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,构建数据集的异构金融特征向量集DtpISO;步骤四,基于异构金融特征向量数据集DtpISO,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型;步骤五,账号检测识别,对于待检测金融交易流水信息数据集根据步骤一进行预处理操作,得到预处理操作结果关键项数据集Dtest,进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三,基于和数据,计算多维异构特征值,构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中,进行分类预测,得到最终检测识别结果即对应交易对为传销交易关系的异常概率。优选地,在步骤一中,提取交易流水中的交易卡号、交易日期、交易金额、摘要说明以及对手账号关键信息项;将交易卡号作为用户的身份标识,交易账号默认为用户交易卡号;基于关键项信息数据集进行数据清洗和格式归一化操作,将带有“进出”标志位的交易金额数据转换成带有正负号的数值,‘进’为正数,‘出’为负数;清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据;然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理;经过数据清洗和格式归一化操作后,基于关键项信息数据集,分别构建交易对信息数据集和账号信息数据集。优选地,步骤一中交易对信息数据集构建方法为:1)统计关键项信息数据集中交易对集合TransPair={tp1,tp2,...,tpn},其中n为交易对总数,不重复计数;其中,tpi为一条关键性交易流水数据中的交易账号ci与其交易对手账号加逗号分隔符拼接后生成的交易对标识ID;2)以tpi为键值key,即交易对标识ID,tpi∈TransPair,以tpi对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标;将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;3)重复步骤2),得到交易对信息数据集其中n为交易对总数;若则优选地,步骤一中账号信息数据集构建方法为:1)统计关键项信息数据集中卡号集合C={c1,c2,...,cn},其中n为卡号总数,不重复计数;2)以卡号ci为键值key,即账号标识ID,ci∈C,以ci对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标。将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;3)重复步骤2),得到账号信息数据集其中n为卡号总数;若则优选地,步骤二中交易熵特征向量的获取步骤如下:1)按照列表元素的time项中月日类别对该列表元素进行集合划分,得k为中出现的月日类别数,清洗掉Dtp数据集中k值小于2的ltp数据;2)接步骤1),基于MDi,在计算H(attr)时,pattri中的TF(attri)计算时只考虑属性值attri在列表中出现的概率,即只可以使用mdj之前的md列表的交易,而当前及之后的交易都不考虑在内,j=2,...,k;将当前月日交易列表mdj加入到H(attr)的计算中获得目前的熵newH(attr);则定义差值熵attrHj为:attrHj=H(attr)-newH(attr)3)假设不同属性的概率分布是相互独立的,此时有联合熵H(X,Y)=H(X)+H(Y)成立;则,对attr∈{time,money,summary},定义交易熵tranHj为这3个属性差值熵的联合熵,即:tranHj=timeHj+moneyHj+summaryHj4)针对交易流水序列,根据步骤1)和步骤2)计算交易熵tranHj,由j=1开始,然后j=j+1,直到j=k结束,取tranH0=tranH1=0;5)经过步骤3),得到TranHi=(tranH1,...,tranHk),TranHi即为交易对tpi的交易流水序列对应的交易熵初始特征;6)针对步骤5)所得的TranHi,采用长度为10、步长为5的滑窗对tranH由前向后进行数据分割;TranHi长度大于10时,若最后一个滑窗包含的数据长度不足10但大于2,则进行补0操作;否则,舍弃此部分数据;TranHi长度小于10时,进行补0操作;生成有即属于tpi的交易熵特征向量集合;7)接步骤6),由构建交易熵特征向量数据集DtpH,交易对tpi对应交易熵特征向量集合元素指定编码ID后重构数据中,交易熵特征向量由交易对tpi和编号j共同标识。优选本文档来自技高网
...

【技术保护点】
1.一种基于异构金融特征的异常交易识别方法,其特征在于,方法包括:步骤一,对输入的原始金融交易流水数据集,进行数据预处理;数据预处理方式为数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D;构建信息数据集Dtp和账号信息数据集Dc;步骤二,基于交易对信息据集Dtp,构建交易熵特征向量数据集合DtpH;步骤三,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,构建数据集的异构金融特征向量集DtpISO;步骤四,基于异构金融特征向量数据集DtpISO,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型;步骤五,账号检测识别,对于待检测金融交易流水信息数据集

【技术特征摘要】
1.一种基于异构金融特征的异常交易识别方法,其特征在于,方法包括:步骤一,对输入的原始金融交易流水数据集,进行数据预处理;数据预处理方式为数据清洗和数据格式归一化处理,以及关键项数据提取,得到关键项数据集合D;构建信息数据集Dtp和账号信息数据集Dc;步骤二,基于交易对信息据集Dtp,构建交易熵特征向量数据集合DtpH;步骤三,基于交易熵特征向量数据集DtpH和账号信息数据集Dc,构建数据集的异构金融特征向量集DtpISO;步骤四,基于异构金融特征向量数据集DtpISO,构建训练集Train,以及分别构建三种基分类器模型,然后构建最终的VoteClassifierModel投票分类器预测模型;步骤五,账号检测识别,对于待检测金融交易流水信息数据集根据步骤一进行预处理操作,得到预处理操作结果关键项数据集Dtest,进而提取出交易对信息数据集和账号信息数据集构建交易熵特征向量数据集基于步骤三,基于和数据,计算多维异构特征值,构建异构金融特征向量数据集将输入构建好的VoteClassifierModel投票分类器模型中,进行分类预测,得到最终检测识别结果即对应交易对为传销交易关系的异常概率。2.根据权利要求1所述的基于异构金融特征的异常交易识别方法,其特征在于,在步骤一中,提取交易流水中的交易卡号、交易日期、交易金额、摘要说明以及对手账号关键信息项;将交易卡号作为用户的身份标识,交易账号默认为用户交易卡号;基于关键项信息数据集进行数据清洗和格式归一化操作,将带有“进出”标志位的交易金额数据转换成带有正负号的数值,‘进’为正数,‘出’为负数;清洗掉交易金融项绝对值小于50的交易流水数据与交易卡号为空的数据;然后将交易日期按“YYYYMMDDhhmmss”格式进行归一化处理;经过数据清洗和格式归一化操作后,基于关键项信息数据集,分别构建交易对信息数据集和账号信息数据集。3.根据权利要求2所述的基于异构金融特征的异常交易识别方法,其特征在于,步骤一中交易对信息数据集构建方法为:1)统计关键项信息数据集中交易对集合TransPair={tp1,tp2,...,tpn},其中n为交易对总数,不重复计数;其中,tpi为一条关键性交易流水数据中的交易账号ci与其交易对手账号加逗号分隔符拼接后生成的交易对标识ID;2)以tpi为键值key,即交易对标识ID,tpi∈TransPair,以tpi对应的全部交易流水关键项数据构建列表这里j仅表示列表中某个元素的下标;将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;3)重复步骤2),得到交易对信息数据集其中n为交易对总数;若则4.根据权利要求2所述的基于异构金融特征的异常交易识别方法,其特征在于,步骤一中账号信息数据集构建方法为:1)统计关键项信息数据集中卡号集合C={c1,c2,...,cn},其中n为卡号总数,不重复计数;2)以卡号ci为键值key,即账号标识ID,ci∈C,以ci对应的交易流水信息构建列表这里j仅表示列表中某个元素的下标;将列表中元素按交易日期项即time由小到大进行排序,更新为排序后结果列表;3)重复步骤2),得到账号信息数据集其中n为卡号总数;若则5.根据权利要求1所述的基于异构金融特征的异常交易识别方法,其特征在于,步骤二中交易熵特征向量的获取步骤如下:1)按照列表元素的time项中月日类别对该列表元素进行集合划分,得k为中出现的月日类别数,清洗掉Dtp数据集中k值小于2的ltp数据;2)接步骤1),基于MDi,在计算H(attr)时,pattri中的TF(attri)计算时只考虑属性值attri在列表中出现的概率,即只可以使用mdj之前的md列表的交易,而当前及之后的交易都不考虑在内,j=2,...,k;将当前月日交易列表mdj加入到H(attr)的计算中获得目前...

【专利技术属性】
技术研发人员:李晓颖吕芳王佰玲王巍黄俊恒辛国栋
申请(专利权)人:哈尔滨工业大学威海
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1