【技术实现步骤摘要】
一种分类模型生成方法及装置、一种数据识别方法及装置
本申请涉及计算机数据安全
,特别涉及一种分类模型生成方法及装置、一种数据识别方法及装置、一种计算设备及计算机存储介质。
技术介绍
现下反洗钱行业对于犯罪等可疑交易识别的做法,主要通过人工设计业务特征,完成规则模型的构造。其中,传统的关系网络数据(例如资金网络、同设备网络等)特征,基本都是通过人工构造获得的。例如,构造网络节点或边上的统计量来刻画节点的子图模式。该类特征对于节点类别的区分判别,并没有起到很好的效果。同时,该类基于统计量的特征只能刻画节点局部(一跳)关系内子图的模式,对于多跳关系的子图,无法完整表示,有效信息会缺失。
技术实现思路
有鉴于此,本申请实施例提供了一种分类模型生成方法及装置、一种数据识别方法及装置、一种计算设备及计算机存储介质,以解决现有技术中存在的技术缺陷。本申请实施例公开了一种分类模型生成方法,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。另一方面,本申请实施例还提供了一种数据识别方法,包括:获取待识别数据集,其中,所述待识别数据集包括至少两个待识别数据;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点 ...
【技术保护点】
1.一种分类模型生成方法,其特征在于,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。
【技术特征摘要】
1.一种分类模型生成方法,其特征在于,包括:获取训练样本数据集,其中,所述训练样本数据集中包括至少两个样本数据以及每个所述样本数据对应的样本标签;构建所述至少两个样本数据的第一关系网络,通过所述第一关系网络的节点表征所述至少两个样本数据;基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示;通过所述训练样本数据集对分类模型进行训练,得到所述分类模型,所述分类模型使得所述样本标签与所述第一关系网络中每个节点的向量化表示相关联。2.根据权利要求1所述的方法,其特征在于,获取训练样本数据集包括:按照预设时间间隔获取训练样本数据集。3.根据权利要求1所述的方法,其特征在于,基于预设的网络嵌入学习模型获得所述第一关系网络中每个节点的向量化表示包括:采用随机游走算法对所述第一关系网络中每个节点进行序列采样,并生成第一节点序列;基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。4.根据权利要求3所述的方法,其特征在于,基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:基于Node2vec网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。5.根据权利要求3所述的方法,其特征在于,基于预设的网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:基于DeepWalk网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示。6.根据权利要求4所述的方法,其特征在于,基于Node2vec网络嵌入学习模型将所述第一节点序列中的每个节点进行向量化表示包括:所述Node2vec网络嵌入学习模型基于Word2vec的SkipGram框架将所述节点序列中的每个节点进行向量化表示。7.根据权利要求1所述的方法,其特征在于,所述分类模型包括XGBoost模型、随机森林模型、支持向量机模型或逻辑回归模型。8.一种数据识别方法,其特征在于,包括:获取待识别数据集,其中,所述待识别数据集包括至少两个待识别数据;构建所述至少两个待识别数据的第二关系网络,通过所述第二关系网络的节点表征所述至少两个待识别数据;基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示;根据预先训练的分类模型确定所述第二关系网络中每个节点的向量化表示对应的数据标签。9.根据权利要求8所述的方法,其特征在于,基于预设的网络嵌入学习模型获得所述第二关系网络中每个节点的向量化表示包括:采用随机游走算法对所述第二关系网络中每个节点进行序列采样,并生成第二节点序列;根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示。10.根据权利要求9所述的方法,其特征在于,根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示包括:基于Node2vec网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化表示。11.根据权利要求9所述的方法,其特征在于,根据预设的网络嵌入学习模型将所述第二节点序列中的每个节点进行向量化...
【专利技术属性】
技术研发人员:郑毅,张鹏,潘健民,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。