The invention discloses a data classification method, a classification model training method and a device, belonging to the technical field of large data. The method includes: obtaining the data to be classified, and the data to be classified includes the eigenvalues of multiple original variables; inputting the eigenvalues of multiple original variables into the classification model; obtaining the eigenvalues of at least one derived variable and at least one derived variable of multiple original variables based on the eigenvalues of the specified classifier and the specified classifier in the classification model; and based on the classification model, obtaining the eigenvalues of at least one derived variable of multiple original variables. The eigenvalues of multiple original variables and at least one derivative variable are used to obtain the categories of data to be classified. Among them, the designated classifier is the classifier corresponding to the classification conditions of the data to be classified. The invention reduces the number of derivative variables of the data to be classified, thereby speeding up the calculation speed of the data classification process.
【技术实现步骤摘要】
数据分类方法、分类模型训练方法及装置
本专利技术涉及大数据
,特别涉及一种数据分类方法、分类模型训练方法及装置。
技术介绍
随着大数据技术的发展,网络中的数据飞速增长。为了分析和应用数据,经常需要对数据进行分类,例如在信用风险评估的场景中,数据可以为信贷记录、投资记录、消费信息等,需要将数据分类为所属用户会违约的数据或不会违约的数据。目前数据分类的过程基于Onehotencoding(一位有效编码)算法实现:在得到待分类数据后,将已训练的多棵决策树中的每颗决策树中的每个叶子节点的分类条件均作为该待分类数据的衍生变量,即若有N个叶子节点则会有N个衍生变量。对于每个叶子节点,当待分类数据符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取1,当待分类数据不符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取0,这样得到待分类数据的所有衍生变量的特征值后,基于该待分类数据中多个原始变量的特征值、所有衍生变量的特征值进行计算,得到待分类数据的类别。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:待分类数据的衍生变量过多,导致数据分类的过程计算量过大,影响了计算速度。
技术实现思路
本专利技术实施例提供了一种数据分类方法、分类模型训练方法及装置,能够解决相关技术中数据分类的过程计算量过大的问题。所述技术方案如下:一方面,提供了一种数据分类方法,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所 ...
【技术保护点】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。
【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。2.根据权利要求1所述的方法,其特征在于,所述分类模型中每个分类器的特征值基于第一比值和第二比值获取,所述第一比值是指多个样本数据中符合所述分类器对应的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,所述第二比值是指所述多个样本数据中符合所述分类器对应的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值。3.根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括以下步骤:获取多个样本数据,所述多个样本数据包括多个原始变量的多个特征值;对于多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类器对应的类别作为所述样本数据的衍生变量;将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到所述分类模型。4.一种分类模型训练方法,其特征在于,所述方法包括:获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。5.根据权利要求4所述的方法,其特征在于,所述对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量之前,所述方法还包括:基于所述多个样本数据进行训练,得到所述多个分类器;对于所述多个分类器中的每个分类器,计算所述多个样本数据中符合所述分类器的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,得到第一比值;计算所述多个样本数据中符合所述分类器的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值,得到第二比值;根据所述第一比值和所述第二比值,获取所述分类器的特征值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一比值和所述第二比值,获取所述分类器的特征值,包括:采用以下公式对所述第一比值和所述第二比值进行计算,得到所述分类器的特征值:其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。7.根据权利要求4所述的方法,其特征在于,每个样本数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个样本数据的不同衍生变量对应不同虚拟树,所述至少一颗虚拟树中的每颗虚拟树包括多个叶子节点,所述多个叶子节点中的每个叶子节点为一个分类器。8.一种数据分类装置,其特征在于,所述装置包括:获取模块,用于获取待分类数据,所述待分类数据包括多个原始变量的特征值;所述...
【专利技术属性】
技术研发人员:车昱婧,
申请(专利权)人:财付通支付科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。