一种分类模型生成方法及装置、一种数据识别方法及装置制造方法及图纸

技术编号:19935153 阅读:22 留言:0更新日期:2018-12-29 04:53
本申请提供的一种分类模型生成方法及装置、一种数据识别方法及装置,其中,所述数据识别方法包括获取待识别数据集;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。

【技术实现步骤摘要】
一种分类模型生成方法及装置、一种数据识别方法及装置
本申请涉及计算机数据安全
,特别涉及一种分类模型生成方法及装置、一种数据识别方法及装置、一种计算设备及计算机存储介质。
技术介绍
现下反洗钱行业对于犯罪等可疑交易识别的做法,主要通过人工设计业务特征,完成规则模型的构造。其中,传统的关系网络数据(例如资金网络、同设备网络等)特征,基本都是通过人工构造获得的。例如,构造网络节点或边上的统计量来刻画节点的子图模式。该类特征对于节点类别的区分判别,并没有起到很好的效果。同时,该类基于统计量的特征只能刻画节点局部(一跳)关系内子图的模式,对于多跳关系的子图,无法完整表示,有效信息会缺失。
技术实现思路
有鉴于此,本申请实施例提供了一种分类模型生成方法及装置、一种数据识别方法及装置、一种计算设备及计算机存储介质,以解决现有技术中存在的技术缺陷。本申请实施例公开了一种分类模型生成方法,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。另一方面,本申请实施例还提供了一种数据识别方法,包括:获取待识别数据集,其中,所述待识别数据集包括至少两个待识别数据;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。另一方面,本申请实施例还提供了一种分类模型生成装置,包括:第一获取模块,被配置为获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;第一构建模块,被配置为构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;第一学习模块,被配置为基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;训练模块,被配置为通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。另一方面,本申请实施例还提供了一种数据识别装置,包括:第二获取模块,被配置为获取待识别数据集,其中,所述待识别数据集包括至少两个待识别数据;第二构建模块,被配置为构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;第三学习模块,被配置为基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;识别模块,被配置为根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。另一方面,本申请还提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行时实现所述分类模型生成方法或所述数据识别方法的步骤。另一方面,本申请还提供了一种计算机可读存储介质,其存储有计算机指令,该程序被处理器执行时实现所述分类模型生成方法或所述数据识别方法的步骤。本申请提供的一种分类模型生成方法及装置、一种数据识别方法及装置,其中,所述数据识别方法包括获取待识别数据集;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。附图说明图1为本说明书一实施例提供的一种计算设备的结构示意图;图2为本说明书一实施例提供的一种分类模型生成方法的流程图;图3为本说明书一实施例提供的一种分类模型生成方法的流程图;图4为本说明书一实施例提供的一种分类模型生成方法的流程图;图5为本说明书一实施例提供的关系网络结构图以及关系网络结构图中每个节点的向量化表示示意图;图6为本说明书一实施例提供的一种数据识别方法的流程图;图7为本说明书一实施例提供的一种数据识别方法的流程图;图8为本说明书一实施例提供的一种分类模型生成装置的结构示意图;图9为本说明书一实施例提供的一种数据识别装置的结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。反洗钱:指金融机构通过流程、规则或模型等方式控制系统内的洗钱风险。Node2vec:一种关系网络节点向量化的方法,基于Word2vec模型。在本说明书一个或多个实施例中,提供了一种分类模型生成方法及装置、一种数据识别方法及装置、一种计算设备及计算机存储介质,在下面的实施例中逐一进行详细说明。参见图1,本说明书一个实施例提供了一种计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110、处理器120和通信接口140。所述处理器120与所述存储器110通过总线130相连接,数据库150用于保存训练样本数据集或待识别数据集,网络160用于生成分类模型,并与所述计算设备100通过通信接口140通信连接。所述通信接口140使得计算设备100能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。所述存储器110,被配置为存储通信接口140通过总线130发送的训练样本数据集或待识别数据集以及存储在存储器110上并可在处理器120上运行的计算机指令。所述处理器120,被配置为获取存储在存储本文档来自技高网...

【技术保护点】
1.一种分类模型生成方法,其特征在于,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。

【技术特征摘要】
1.一种分类模型生成方法,其特征在于,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。2.根据权利要求1所述的方法,其特征在于,获取训练样本数据集包括:按照预设时间间隔获取训练样本数据集。3.根据权利要求1所述的方法,其特征在于,基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示包括:采用随机游走算法对所述第一关系网络中每个节点进行序列采样,并生成第一节点序列;基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。4.根据权利要求3所述的方法,其特征在于,基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:基于Node2vec网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。5.根据权利要求3所述的方法,其特征在于,基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:基于DeepWalk网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。6.根据权利要求4所述的方法,其特征在于,基于Node2vec网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:所述Node2vec网络嵌入学习模型基于Word2vec的SkipGram框架将所述节点序列中的每个节点进行向量化表示。7.根据权利要求1所述的方法,其特征在于,所述分类模型包括XGBoost模型、随机森林模型、支持向量机模型或逻辑回归模型。8.一种数据识别方法,其特征在于,包括:获取待识别数据集,其中,所述待识别数据集包括至少两个待识别数据;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。9.根据权利要求8所述的方法,其特征在于,基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示包括:采用随机游走算法对所述第二关系网络中每个节点进行序列采样,并生成第二节点序列;根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示。10.根据权利要求9所述的方法,其特征在于,根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示包括:基于Node2vec网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示。11.根据权利要求9所述的方法,其特征在于,根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化...

【专利技术属性】
技术研发人员:郑毅张鹏潘健民
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1