一种异常交易数据的识别方法及装置制造方法及图纸

技术编号：15725382 阅读：256 留言：0更新日期：2017-06-29 14:05

本发明专利技术公开了一种异常交易数据的识别方法及装置，涉及计算机技术领域，主要目的在于通过大量的判断指标对交易数据进行综合量化打分，以此细化交易数据的异常指数，从而提高异常交易数据判断的准确性。本发明专利技术主要的技术方案为：基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；利用加权分隔森林算法以及所述指标权重对待识别数据进行处理得到所述待识别交易数据对应的可疑分数值；当所述可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种异常交易数据的识别方法及装置
本专利技术涉及计算机
，尤其涉及一种异常交易数据的识别方法及装置。
技术介绍
随着互联网金融的不断发展，互联网金融犯罪的种类也随之增加，互联网金融犯罪既包括互联网金融产品或服务可能涉嫌的犯罪，也包括利用互联网金融平台实施的犯罪。当前已有的互联网金融犯罪类型包括非法吸收公众存款、非法集资、诈骗、擅自发行股票公司企业债券、非法侵入计算机信息系统、洗钱等。互联网金融犯罪相比于传统金融犯罪具有作案方式与互联网金融业态相适应，智能化、隐蔽化的特征，并且其影响范围广、消费者权益救助难，证据存在形式隐蔽、取证难度大。针对网络洗钱这一互联网金融犯罪类型，当前的金融机构在识别该型互联网金融犯罪时，主要依靠识别网络洗钱交易与大部分证照交易的不同点，普遍所采用的侦测方式还是通过人工设定规则的方法，例如对于某种洗钱手法，会对用户的交易行为定义如下规则：如果用户在一定时间周期内满足指标A大于m，且指标B小于n，指标C不等于x，则输出该用户，系统认为该用户是可疑用户，交给相关人员审核。而通过人工设定规则的方法检测异常交易行为，则存在有如下缺点：(1)相关指标阈值由人工设定，只要低于某一个条件的阈值，该用户就不会被判定可疑，阈值很难精确设定导致检测结果准确率降低。(2)通过人工设定规则，只能组合有限的几个指标集合，很难发挥出大数据海量指标集的优势。(3)规则设定需要人工修改，无法通过已有的已判定的案例数据，对未来规则提供规则调整建议，很难起到量化作用。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一...
一种异常交易数据的识别方法及装置

【技术保护点】
一种异常交易数据的识别方法，该方法应用于计算机设备，其特征在于，所述方法包括：基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值；当所述可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。

【技术特征摘要】
1.一种异常交易数据的识别方法，该方法应用于计算机设备，其特征在于，所述方法包括：基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重，所述指标权重表示所述指标对所述已识别样本数据集中异常交易数据的区分程度；利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值；当所述可疑分数值大于预置分数时，确定所述待识别交易数据为异常交易数据。2.根据权利要求1所述的方法，其特征在于，基于已识别样本数据集中的交易数据计算所述已识别样本数据集中指标的指标权重包括：获取已识别样本数据中指定数据指标的指标值，所述已识别样本数据为经过识别后所确定的正常交易数据或异常交易数据；利用熵计算每个数据指标的指标值所对应的信息增益；将所述信息增益确定为所述数据指标的指标权重。3.根据权利要求2所述的方法，其特征在于，利用熵计算每个数据指标的指标值所对应的信息增益包括：当所述数据指标的指标值具有多个值时，将所述数据指标的指标值调整为两值形式的取值组合；逐一计算所述取值组合中每对取值的信息增益；选取信息增益最大的一组取值组合所对应的信息增益确定为所述数据指标的信息增益。4.根据权利要求2或3所述的方法，其特征在于，将所述信息增益确定为所述数据指标的指标权重包括：根据预置规则判断所述信息增益的取值，将符合取值范围的信息增益的取值设置为指标权重；将不符合取值范围的信息增益进行二次计算，得到符合取值范围的信息增益并将计算后的所述信息增益设置为指标权重。5.根据权利要求1所述的方法，其特征在于，利用加权分隔森林算法以及所述指标权重对待识别交易数据进行处理得到所述待识别交易数据对应的可疑分数值包括：利用全量数据集中的交易数据和所述指标权重创建基于加权分隔森林算法的异常交易数据计算模型，所述全量数据集中包括已识别样本数据和未识别样本数据；将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值。6.根据权利要求5所述的方法，其特征在于，利用全量数据集中的交易数据和所述指标权重创建异常交易数据计算模型包括：随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树；根据预置的采集次数，将每一次生成的加权分隔树组成加权分隔森林，得到所述异常交易数据计算模型。7.根据权利要求6所述的方法，其特征在于，随机获取所述全量数据集中的一组样本数据及所述指标权重，生成一棵加权分隔树包括：随机获取全量数据集中的一组样本数据，并根据所述指标权重随机获取一个加权数据指标；统计所述一组样本数据中各样本数据对应所述加权数据指标的指标值，确定所述指标值得最大值与最小值；在所述最大值与最小值之间随机获取一个数值，根据所述数值对所述一组样本数据进行分隔；判断所述分隔的层级是否达到预置值，若达到则停止对加权分隔树进行分隔，若未达到则对分隔后的每组样本数据分别再次随机获取一个加权数据指标进行加权分隔。8.根据权利要求7所述的方法，其特征在于，将待识别交易数据中所含有的数据指标的指标值输入所述异常交易数据计算模型，计算得到所述待识别交易数据的可疑分数值包括：通过所述异常交易数据计算模型计算所述待识别交易数据在每一棵加权分隔树中的中止距离，所述中止距离为所述待识别交易数据完成所述加权分隔树的分隔后所处的节点与首节点的距离；统计所述待识别交易数据在异常交易数据计算模型中所有加权分隔树的中止距离平均值；根据所述中止距离平均值以及预置中止距离计算得到所述待识别交易数据的可疑分数值。9.一种异常交易数据的识别装置，该装...

【专利技术属性】
技术研发人员：潘健民，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人