数据处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22330802 阅读:106 留言:0更新日期:2019-10-19 12:24
本发明专利技术实施例提供一种数据处理方法、装置、存储介质及电子设备,该方法包括:基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。通过图模型以及关联规则模型分别与提升树模型融合,然后将这两种模型的结果进行融合打分,融合了多种模型的优点、克服了每种模型的缺点以及单一模型欠拟合的缺点,提升了识别欺诈群组的准确度。

Data processing method, device, storage medium and electronic equipment

【技术实现步骤摘要】
数据处理方法、装置、存储介质及电子设备
本专利技术涉及计算机
,具体而言,涉及一种数据处理方法、装置、存储介质及电子设备。
技术介绍
随着信息科技的发展,基于信息的欺诈行为越来越多,其中,很多都是团伙作案。目前比较常用的欺诈团伙识别方法是使用无监督聚类算法,例如K-Means、DBSCAN,或是半监督图聚类算法,如标签传播算法。无监督聚类算法主要原理是不依靠标签,而是通过寻找样本特征数据的内在关联(距离),来试图将样本划分成多个簇(cluster),而达到分群的目的。例如,K-Means是将n个样本划分到k个簇中,使得每个点都属于离他最近的均值(此即聚类中心)对应的簇,以之作为聚类的标准。半监督聚类算法则除了考虑样本特征数据之间的关联外,还一定程度上考虑到了样本的标签信息。例如,标签传播算法(LabelPropagationAlgorithm)是一种基于图的半监督学习方法,其基本思路是用已标记节点的标签信息去预测未标记节点的标签信息。该算法的时间复杂度和空间复杂度分别为O(n)和O(n2),其中n为社区的节点数。在实现本专利技术的过程中,专利技术人发现上述欺诈团伙的识别方法至少存在以下技术问题:无监督聚类算法的缺点:无监督算法的缺点显而易见,由于没有考虑到样本的标签,再好的无监督算法都不能充分利用数据的价值,这是因为样本的标签往往对建模来说是其最重要的信息。此外,无监督聚类算法往往考虑的是样本间的距离,在样本特征不强、特征维度有限的情况下,空间距离较近的样本未必是相同的标签,距离较远的样本也未必是不同的标签,因此其聚类的结果也许会和真实标签差异较大。半监督图聚类算法的缺点:尽管半监督算法考虑到了样本标签的信息,但基于既有标签直接给图上的未知样本打标容易造成精确率过低的问题。这是因为欺诈样本占总体比例始终是很小的(通常是千分之一级别),因此与欺诈样本有过关联(这些关联包括手机号、联系人、直亲、Cookie等)的未知样本,依然有很大概率不是欺诈的。此外,上述这些关联的维度有限,无法充分利用到样本的其它特征信息,也无法进行有效的特征工程扩展维度,再加上每种关联维度之间的强弱无法确定,因此,半监督图聚类算法在实践当中效果并不突出。因此,需要一种新的数据处理方法、装置、电子设备及计算机可读介质。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本专利技术提供一种数据处理方法、装置、存储介质及电子设备,提升了识别欺诈群组的准确度。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术实施例的第一方面,提供一种数据处理方法,其中,所述方法包括:基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。在本专利技术的一些示例性实施例中,基于前述方案,根据图模型以及所述待检测数据的欺诈概率值获取第一群组之前,所述方法包括:以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值;根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。在本专利技术的一些示例性实施例中,基于前述方案,根据图模型以及所述待检测数据的欺诈概率值获取第一群组,包括:基于图模型获取所述待检测数据的多个特征群组;获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据;筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。在本专利技术的一些示例性实施例中,基于前述方案,所述方法还包括:获取所述关联规则模型;获取样本数据;基于关联规则初始模型获取所述样本数据的多个规则群组;基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度;筛选出所述提升度超过提升度阈值的规则群组;基于所述规则群组获取所述关联规则模型;其中,所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。在本专利技术的一些示例性实施例中,基于前述方案,基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组,包括:筛选出所述待检测数据的欺诈概率值超过所述欺诈阈值的待检测数据;将所述待检测数据输入至所述关联规则模型,以获取所述规则对应的第二群组。在本专利技术的一些示例性实施例中,基于前述方案,基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组,包括:基于所述第一群组获取所述第一群组的直间度距离;基于所述待检测数据的欺诈概率值确定打分模型;将所述欺诈概率值、所述第一群组、所述第一群组的直间度距离、所述第二群组以及所述规则的提升度输入至所述打分模型,确定所述待检测数据中的目标欺诈群组。在本专利技术的一些示例性实施例中,基于前述方案,基于所述第一群组获取所述第一群组的直间度距离,包括:基于所述图数据中所述第一群组内的每个待检测数据与超过所述欺诈阈值的待检测数据的距离,获取所述第一群组的直间度距离。在本专利技术的一些示例性实施例中,基于前述方案,基于所述待检测数据的欺诈概率值确定打分模型,包括:将初始打分模型中获取的欺诈群组的分数映射到所述欺诈群组内的每个待检测数据,得到所述欺诈群组内的每个待检测数据的分数;基于所述欺诈群组内的每个待检测数据的分数以及欺诈概率值,确定所述初始打分模型中的权重;基于所述权重得到所述打分模型。根据本专利技术实施例的第二方面,提供一种数据处理装置,其中,所述装置包括:第一获取模块,配置为基于提升树模型获取待检测数据的欺诈概率值;第二获取模块,配置为根据图模型以及所述待检测数据的欺诈概率值获取第一群组;第三获取模块,配置为基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;确定模块,配置为基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。在本专利技术的一些示例性实施例中,基于前述方案,所述装置还包括:预处理模块,配置为以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值;以及根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。在本专利技术的一些示例性实施例中,基于前述方案,所述第二获取模块,包括:第一获取单元,配置为基于图模型获取所述待检测数据的多个特征群组;第二获取单元,配置为获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据;筛选单元,配置为筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。在本专利技术的一些示例性实施例中,基于前述方案,所述装置还包括:规则获取模块,配置为获取所述关联规则模型;所述规则获取模块,本文档来自技高网
...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:基于提升树模型获取待检测数据的欺诈概率值;根据图模型以及所述待检测数据的欺诈概率值获取第一群组;基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组;基于所述待检测数据的欺诈概率值、所述第一群组以及所述第二群组确定所述待检测数据中的目标欺诈群组。2.如权利要求1所述的方法,其特征在于,根据图模型以及所述待检测数据的欺诈概率值获取第一群组之前,所述方法包括:以每个待检测数据作为顶点表,提取所述待检测数据中相同的维度特征作为边表,并根据所述各维度特征的权重计算出所述边表的关联值;根据所述顶点表、所述边表以及所述边表的关联值生成所述待检测数据的图数据。3.如权利要求2所述的方法,其特征在于,根据图模型以及所述待检测数据的欺诈概率值获取第一群组,包括:基于图模型获取所述待检测数据的多个特征群组;获取所述多个特征群组中每个特征群组内欺诈概率值超过欺诈阈值的待检测数据;筛选出所述欺诈概率值超过欺诈阈值的待检测数据所占对应的特征群组内的待检测数据的比例超过比例阈值的特征群组,所述特征群组为第一群组。4.如权利要求3所述的方法,其特征在于,所述方法还包括:获取所述关联规则模型;获取样本数据;基于关联规则初始模型获取所述样本数据的多个规则群组;基于所述多个规则群组内样本数据的真实结果确定每个规则群组对应的规则的提升度;筛选出所述提升度超过提升度阈值的规则群组;基于所述规则群组获取所述关联规则模型;其中,所述关联规则模型能够获取所述规则群组对应的规则以及所述规则的提升度。5.如权利要求4所述的方法,其特征在于,基于关联规则模型以及所述待检测数据的欺诈概率值,从所述待检测数据中获取规则对应的第二群组,包括:筛选出所述待检测数据的欺诈概率值超过所述欺诈阈值的待检测数据;将所述待检测数据输入至所述关联规则模型,以获取所述规则对应的第二群组。6....

【专利技术属性】
技术研发人员:顾全张文会
申请(专利权)人:同盾控股有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1