一种异常交易数据的识别方法及装置制造方法及图纸

技术编号:15725382 阅读:256 留言:0更新日期:2017-06-29 14:05
本发明专利技术公开了一种异常交易数据的识别方法及装置,涉及计算机技术领域,主要目的在于通过大量的判断指标对交易数据进行综合量化打分,以此细化交易数据的异常指数,从而提高异常交易数据判断的准确性。本发明专利技术主要的技术方案为:基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重,所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度;利用加权分隔森林算法以及所述指标权重对待识别数据进行处理得到所述待识别交易数据对应的可疑分数值;当所述可疑分数值大于预置分数时,确定所述待识别交易数据为异常交易数据。

【技术实现步骤摘要】
一种异常交易数据的识别方法及装置
本专利技术涉及计算机
,尤其涉及一种异常交易数据的识别方法及装置。
技术介绍
随着互联网金融的不断发展,互联网金融犯罪的种类也随之增加,互联网金融犯罪既包括互联网金融产品或服务可能涉嫌的犯罪,也包括利用互联网金融平台实施的犯罪。当前已有的互联网金融犯罪类型包括非法吸收公众存款、非法集资、诈骗、擅自发行股票公司企业债券、非法侵入计算机信息系统、洗钱等。互联网金融犯罪相比于传统金融犯罪具有作案方式与互联网金融业态相适应,智能化、隐蔽化的特征,并且其影响范围广、消费者权益救助难,证据存在形式隐蔽、取证难度大。针对网络洗钱这一互联网金融犯罪类型,当前的金融机构在识别该型互联网金融犯罪时,主要依靠识别网络洗钱交易与大部分证照交易的不同点,普遍所采用的侦测方式还是通过人工设定规则的方法,例如对于某种洗钱手法,会对用户的交易行为定义如下规则:如果用户在一定时间周期内满足指标A大于m,且指标B小于n,指标C不等于x,则输出该用户,系统认为该用户是可疑用户,交给相关人员审核。而通过人工设定规则的方法检测异常交易行为,则存在有如下缺点:(1)相关指标阈值由人工设定,只要低于某一个条件的阈值,该用户就不会被判定可疑,阈值很难精确设定导致检测结果准确率降低。(2)通过人工设定规则,只能组合有限的几个指标集合,很难发挥出大数据海量指标集的优势。(3)规则设定需要人工修改,无法通过已有的已判定的案例数据,对未来规则提供规则调整建议,很难起到量化作用。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常交易数据的识别方法及装置,通过大量的判断指标对交易数据进行综合量化打分,以此细化交易数据的异常指数,从而提高异常交易数据判断的准确性。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供一种异常交易数据的识别方法,该方法应用于计算机设备,该方法包括:基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重,所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度;利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别数据对应的可疑分数值;当所述可疑分数值大于预置分数时,确定所述待识别交易数据为异常交易数据。另一方面,本专利技术提供一种异常交易数据的识别装置,该装置设置于应用异常交易数据的识别方法的计算机设备中,该装置包括:计算单元,用于基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重,所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度;处理单元,用于利用加权分隔森林算法以及所述计算单元计算的指标权重对待识别数据进行处理得到所述待识别数据对应的可疑分数值;判断单元,用于当所述处理单元得到的可疑分数值大于预置分数时,确定所述待识别交易数据为异常交易数据。借由上述技术方案,本专利技术提供的一种异常交易数据的识别方法及装置,是通过整理已被识别的样本数据来确定数据所包含的各个指标在所有指标中的权重值,再根据得到的指标权重对待识别交易数据进行计算处理得到一个用于表示该数据是异常交易数据的可疑分数值,在该可疑分数值达到某一预置值时确定该待识别交易数据为异常交易数据,并输出显示以供系统对该异常交易数据进行进一步的核实分析。相对于现有的识别交易异常交易数据的方法,该方法通过计算所有指标的权重来综合分析待识别交易数据,并得出一个量化分数来衡量该数据的异常指数,避免了由人工设定指标所产生的判断不全面,准确率低下的问题。同时,随着已识别样本量的增加,数据指标的权重也会随之改变,导致得到的可以分数产生变化,如此,在判断待识别交易数据的可疑性时,其识别结果会随样本数据量的增加而改变,也就是说,本方法通过对大量已识别数据的训练与学习能够提高对待识别交易数据的判断准确性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提出的一种异常交易数据的识别方法的流程图;图2示出了本专利技术实施例提出的另一种异常交易数据的识别方法的流程图;图3示出了本专利技术实施例提出的一种异常交易数据的识别装置的组成框图;图4示出了本专利技术实施例提出的另一种异常交易数据的识别装置的组成框图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种异常交易数据的识别方法,该方法应用于计算机设备,如图1所示,该方法具体步骤包括:101、基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重。一个样本数据中的交易数据内容可以看成是由一部数据指标的指标值所组成的,指标数量的多少也确定了样本数据内容的复杂程度。而由多个具有相同或相似数据指标的样本数据就组成了样本数据集。在本专利技术实施例中,已识别样本数据集是指对样本数据进行异常交易识别后所组成的样本数据集,其中的每个样本数据都标注有该样本数据的识别结果,如正样本即为交易数据异常的样本,负样本即为交易数据正常的样本。在已识别样本数据集中,不同的数据指标根据取值的不同可以将数据集中的不同样本数据加以区分。而对于正、负样本的区分则可能需要对多个数据指标进行组合加以判断。对于一个样本数据,通过该样本数据所在的样本数据集中所有的数据指标来加以区分则是最全面、最准确的方式。据此可以得出,一个样本数据中的每一个数据指标都对该样本数据与其他样本数据的区分具有不同程度的区分作用,所以,计算一个数据指标的指标权重就是计算该数据指标对于区分样本数据的贡献程度。指标权重越高,说明使用该指标来区分样本数据的准确性越大。权重计算的方法包括层次分析法、网络分析法、熵值法等,对于具体的使用方法本专利技术实施例不做具体限定,可根据实际情况进行选择使用。102、利用加权分隔森林算法以及指标权重对待识别交易数据进行处理得到该待识别交易数据对应的可疑分数值。其中,加权分隔森林算法属于随机森林算法的一种改进算法,属于机器学习算法,能通过加权分隔树对文本进行分类,再通过加权分隔森林中的多个加权分隔树的计算结果综合计算文本的所述分类。本专利技术实施例中,应用加权分隔森林算法来计算待识别交易数据属于异常交易数据类别的可能性分值。通过步骤101得到的指标权重以及待识别交易数据中对应指标的值通过异常交易数据计算模型的计算,得出该待识别交易数据的一个可疑分值,该可疑分值用于描述产生该交易数据可能为异常交易的系数。分值越高,该数据为异常交易的可能性越大。在本专利技术实施例中,加权分隔森林算法的具体应用可以是以公本文档来自技高网...
一种异常交易数据的识别方法及装置

【技术保护点】
一种异常交易数据的识别方法,该方法应用于计算机设备,其特征在于,所述方法包括:基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重,所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度;利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值;当所述可疑分数值大于预置分数时,确定所述待识别交易数据为异常交易数据。

【技术特征摘要】
1.一种异常交易数据的识别方法,该方法应用于计算机设备,其特征在于,所述方法包括:基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重,所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度;利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值;当所述可疑分数值大于预置分数时,确定所述待识别交易数据为异常交易数据。2.根据权利要求1所述的方法,其特征在于,基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重包括:获取已识别样本数据中指定数据指标的指标值,所述已识别样本数据为经过识别后所确定的正常交易数据或异常交易数据;利用熵计算每个数据指标的指标值所对应的信息增益;将所述信息增益确定为所述数据指标的指标权重。3.根据权利要求2所述的方法,其特征在于,利用熵计算每个数据指标的指标值所对应的信息增益包括:当所述数据指标的指标值具有多个值时,将所述数据指标的指标值调整为两值形式的取值组合;逐一计算所述取值组合中每对取值的信息增益;选取信息增益最大的一组取值组合所对应的信息增益确定为所述数据指标的信息增益。4.根据权利要求2或3所述的方法,其特征在于,将所述信息增益确定为所述数据指标的指标权重包括:根据预置规则判断所述信息增益的取值,将符合取值范围的信息增益的取值设置为指标权重;将不符合取值范围的信息增益进行二次计算,得到符合取值范围的信息增益并将计算后的所述信息增益设置为指标权重。5.根据权利要求1所述的方法,其特征在于,利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值包括:利用全量数据集中的交易数据和所述指标权重创建基于加权分隔森林算法的异常交易数据计算模型,所述全量数据集中包括已识别样本数据和未识别样本数据;将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型,计算得到所述待识别交易数据的可疑分数值。6.根据权利要求5所述的方法,其特征在于,利用全量数据集中的交易数据和所述指标权重创建异常交易数据计算模型包括:随机获取所述全量数据集中的一组样本数据及所述指标权重,生成一棵加权分隔树;根据预置的采集次数,将每一次生成的加权分隔树组成加权分隔森林,得到所述异常交易数据计算模型。7.根据权利要求6所述的方法,其特征在于,随机获取所述全量数据集中的一组样本数据及所述指标权重,生成一棵加权分隔树包括:随机获取全量数据集中的一组样本数据,并根据所述指标权重随机获取一个加权数据指标;统计所述一组样本数据中各样本数据对应所述加权数据指标的指标值,确定所述指标值得最大值与最小值;在所述最大值与最小值之间随机获取一个数值,根据所述数值对所述一组样本数据进行分隔;判断所述分隔的层级是否达到预置值,若达到则停止对加权分隔树进行分隔,若未达到则对分隔后的每组样本数据分别再次随机获取一个加权数据指标进行加权分隔。8.根据权利要求7所述的方法,其特征在于,将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型,计算得到所述待识别交易数据的可疑分数值包括:通过所述异常交易数据计算模型计算所述待识别交易数据在每一棵加权分隔树中的中止距离,所述中止距离为所述待识别交易数据完成所述加权分隔树的分隔后所处的节点与首节点的距离;统计所述待识别交易数据在异常交易数据计算模型中所有加权分隔树的中止距离平均值;根据所述中止距离平均值以及预置中止距离计算得到所述待识别交易数据的可疑分数值。9.一种异常交易数据的识别装置,该装...

【专利技术属性】
技术研发人员:潘健民
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1