数据处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：22330802 阅读：106 留言：0更新日期：2019-10-19 12:24

本发明专利技术实施例提供一种数据处理方法、装置、存储介质及电子设备，该方法包括：基于提升树模型获取待检测数据的欺诈概率值；根据图模型以及所述待检测数据的欺诈概率值获取第一群组；基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组；基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。通过图模型以及关联规则模型分别与提升树模型融合，然后将这两种模型的结果进行融合打分，融合了多种模型的优点、克服了每种模型的缺点以及单一模型欠拟合的缺点，提升了识别欺诈群组的准确度。

Data processing method, device, storage medium and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、存储介质及电子设备
本专利技术涉及计算机
，具体而言，涉及一种数据处理方法、装置、存储介质及电子设备。
技术介绍
随着信息科技的发展,基于信息的欺诈行为越来越多,其中,很多都是团伙作案。目前比较常用的欺诈团伙识别方法是使用无监督聚类算法，例如K-Means、DBSCAN，或是半监督图聚类算法，如标签传播算法。无监督聚类算法主要原理是不依靠标签，而是通过寻找样本特征数据的内在关联(距离)，来试图将样本划分成多个簇(cluster)，而达到分群的目的。例如,K-Means是将n个样本划分到k个簇中，使得每个点都属于离他最近的均值(此即聚类中心)对应的簇，以之作为聚类的标准。半监督聚类算法则除了考虑样本特征数据之间的关联外，还一定程度上考虑到了样本的标签信息。例如,标签传播算法(LabelPropagationAlgorithm)是一种基于图的半监督学习方法，其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。该算法的时间复杂度和空间复杂度分别为O(n)和O(n2)，其中n为社区的节点数。在实现本专利技术的过程中，专利技术人发现上述欺诈团伙的识别方法至少存在以下技术问题：无监督聚类算法的缺点：无监督算法的缺点显而易见，由于没有考虑到样本的标签，再好的无监督算法都不能充分利用数据的价值，这是因为样本的标签往往对建模来说是其最重要的信息。此外，无监督聚类算法往往考虑的是样本间的距离，在样本特征不强、特征维度有限的情况下，空间距离较近的样本未必是相同的标签，距离较远的样本也未必是不同的标签，因此其聚类的结果也许会和真实标签差异较大。...

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：基于提升树模型获取待检测数据的欺诈概率值；根据图模型以及所述待检测数据的欺诈概率值获取第一群组；基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组；基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：基于提升树模型获取待检测数据的欺诈概率值；根据图模型以及所述待检测数据的欺诈概率值获取第一群组；基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组；基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。2.如权利要求1所述的方法，其特征在于，根据图模型以及所述待检测数据的欺诈概率值获取第一群组之前，所述方法包括：以每个待检测数据作为顶点表，提取所述待检测数据中相同的维度特征作为边表，并根据所述各维度特征的权重计算出所述边表的关联值；根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。3.如权利要求2所述的方法，其特征在于，根据图模型以及所述待检测数据的欺诈概率值获取第一群组,包括：基于图模型获取所述待检测数据的多个特征群组；获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据；筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组，所述特征群组为第一群组。4.如权利要求3所述的方法，其特征在于，所述方法还包括：获取所述关联规则模型；获取样本数据；基于关联规则初始模型获取所述样本数据的多个规则群组；基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度；筛选出所述提升度超过提升度阈值的规则群组；基于所述规则群组获取所述关联规则模型；其中，所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。5.如权利要求4所述的方法，其特征在于，基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组，包括：筛选出所述待检测数据的欺诈概率值超过所述欺诈阈值的待检测数据；将所述待检测数据输入至所述关联规则模型，以获取所述规则对应的第二群组。6....

【专利技术属性】
技术研发人员：顾全，张文会，
申请(专利权)人：同盾控股有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人