数据分类方法、分类模型训练方法及装置制造方法及图纸

技术编号:21185377 阅读:32 留言:0更新日期:2019-05-22 16:00
本发明专利技术公开了一种数据分类方法、分类模型训练方法及装置,属于大数据技术领域。所述方法包括:获取待分类数据,待分类数据包括多个原始变量的特征值;将多个原始变量的特征值输入分类模型,基于分类模型中的指定分类器以及指定分类器的特征值,获取多个原始变量的至少一个衍生变量以及至少一个衍生变量的特征值;在分类模型中基于多个原始变量的特征值、至少一个衍生变量的特征值,得到待分类数据的类别。其中,指定分类器为待分类数据符合的分类条件所对应的分类器。本发明专利技术减少了待分类数据的衍生变量数量,从而加快了数据分类的过程的计算速度。

Data Classification Method, Classification Model Training Method and Device

The invention discloses a data classification method, a classification model training method and a device, belonging to the technical field of large data. The method includes: obtaining the data to be classified, and the data to be classified includes the eigenvalues of multiple original variables; inputting the eigenvalues of multiple original variables into the classification model; obtaining the eigenvalues of at least one derived variable and at least one derived variable of multiple original variables based on the eigenvalues of the specified classifier and the specified classifier in the classification model; and based on the classification model, obtaining the eigenvalues of at least one derived variable of multiple original variables. The eigenvalues of multiple original variables and at least one derivative variable are used to obtain the categories of data to be classified. Among them, the designated classifier is the classifier corresponding to the classification conditions of the data to be classified. The invention reduces the number of derivative variables of the data to be classified, thereby speeding up the calculation speed of the data classification process.

【技术实现步骤摘要】
数据分类方法、分类模型训练方法及装置
本专利技术涉及大数据
,特别涉及一种数据分类方法、分类模型训练方法及装置。
技术介绍
随着大数据技术的发展,网络中的数据飞速增长。为了分析和应用数据,经常需要对数据进行分类,例如在信用风险评估的场景中,数据可以为信贷记录、投资记录、消费信息等,需要将数据分类为所属用户会违约的数据或不会违约的数据。目前数据分类的过程基于Onehotencoding(一位有效编码)算法实现:在得到待分类数据后,将已训练的多棵决策树中的每颗决策树中的每个叶子节点的分类条件均作为该待分类数据的衍生变量,即若有N个叶子节点则会有N个衍生变量。对于每个叶子节点,当待分类数据符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取1,当待分类数据不符合该叶子节点对应的分类条件时,将该叶子节点对应的衍生变量的特征值取0,这样得到待分类数据的所有衍生变量的特征值后,基于该待分类数据中多个原始变量的特征值、所有衍生变量的特征值进行计算,得到待分类数据的类别。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:待分类数据的衍生变量过多,导致数据分类的过程计算量过大,影响了计算速度。
技术实现思路
本专利技术实施例提供了一种数据分类方法、分类模型训练方法及装置,能够解决相关技术中数据分类的过程计算量过大的问题。所述技术方案如下:一方面,提供了一种数据分类方法,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。一方面,提供了一种分类模型训练方法,所述方法包括:获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。一方面,提供了一种数据分类装置,所述装置包括:获取模块,用于获取待分类数据,所述待分类数据包括多个原始变量的特征值;所述获取模块,还用于将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;确定模块,用于在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。一方面,提供了一种分类模型训练装置,所述装置包括:获取模块,用于获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;确定模块,用于对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;所述确定模块,还用于将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;训练模块,用于基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现上述数据分类方法所执行的操作和/或上述分类模型训练方法所执行的操作。一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述数据分类方法所执行的操作和/或上述分类模型训练方法所执行的操作。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例提供的方法及装置,通过将分类模型中指定分类器所对应的分类条件作为待分类数据的衍生变量,将指定分类器的特征值作为衍生变量的特征值,而指定分类器的特征值基于训练该指定分类器的正样本数据的数量和负样本数据的数量确定,能够减少待分类数据的衍生变量数量,从而加快数据分类过程的计算速度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种实施环境图;图2是本专利技术实施例提供的一种分类模型训练方法的流程图;图3是本专利技术实施例提供的一种虚拟树的示意图;图4是本专利技术实施例提供的一种数据分类方法的流程图;图5是本专利技术实施例提供的一种分类模型训练装置的结构示意图;图6是本专利技术实施例提供的一种数据分类装置的结构示意图;图7是本专利技术实施例提供的一种终端700的结构框图;图8是本专利技术实施例提供的一种服务器800的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是本专利技术实施例提供的一种实施环境图。该实施环境包括多个终端101和多个服务器102。该多个终端101通过无线或者有线网络和多个服务器102连接,该多个终端101可以为电脑、智能手机、平板电脑或者其他电子设备,每个服务器102可以为是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。在模型训练的过程中,服务器102训练所用的大量样本数据可以来自终端101,服务器102可以基于大量样本数据进行训练,得到分类模型。在数据分类的过程中,终端101可以向服务器102提供待分类数据,服务器102可以基于待分类数据和分类模型,得到待分类数据的类别。可选地,服务器102还可以具有至少一种数据库,例如贷款数据库,购物数据库,信用分数据库等,用于存储终端101提供的样本数据和/或待分类数据。本专利技术实施例提供的分类模型训练方法以及数据分本文档来自技高网...

【技术保护点】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。

【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:获取待分类数据,所述待分类数据包括多个原始变量的特征值;将所述多个原始变量的特征值输入分类模型,基于所述分类模型中的指定分类器以及所述指定分类器的特征值,获取所述多个原始变量的至少一个衍生变量以及所述至少一个衍生变量的特征值;在所述分类模型中基于所述多个原始变量的特征值、所述至少一个衍生变量的特征值,得到所述待分类数据的类别;其中,所述分类模型为基于多个样本数据以及基于所述多个样本数据的原始变量所得到的衍生变量训练得到的模型,所述指定分类器为所述待分类数据符合的分类条件所对应的分类器,所述指定分类器的特征值基于训练所述指定分类器的正样本数据的数量和负样本数据的数量确定。2.根据权利要求1所述的方法,其特征在于,所述分类模型中每个分类器的特征值基于第一比值和第二比值获取,所述第一比值是指多个样本数据中符合所述分类器对应的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,所述第二比值是指所述多个样本数据中符合所述分类器对应的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值。3.根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括以下步骤:获取多个样本数据,所述多个样本数据包括多个原始变量的多个特征值;对于多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类器对应的类别作为所述样本数据的衍生变量;将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到所述分类模型。4.一种分类模型训练方法,其特征在于,所述方法包括:获取多个样本数据,所述多个样本数据包括多个原始变量的特征值和类别;对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量;将所述分类器的特征值作为所述衍生变量的特征值,得到所述样本数据的至少一个衍生变量的特征值,其中,所述分类器的特征值基于训练所述分类器的正样本数据的数量和负样本数据的数量确定;基于所述多个样本数据的原始变量的特征值、类别和衍生变量的特征值进行训练,得到分类模型,所述分类模型用于对待分类数据进行分类。5.根据权利要求4所述的方法,其特征在于,所述对于所述多个样本数据中的每个样本数据,当所述样本数据符合已训练的多个分类器中的任一分类器对应的分类条件时,将所述分类条件作为所述样本数据的衍生变量之前,所述方法还包括:基于所述多个样本数据进行训练,得到所述多个分类器;对于所述多个分类器中的每个分类器,计算所述多个样本数据中符合所述分类器的分类条件的负样本数据的数量与所述多个样本数据中负样本数据的数量之间的比值,得到第一比值;计算所述多个样本数据中符合所述分类器的分类条件的正样本数据的数量与所述多个样本数据中正样本数据的数量之间的比值,得到第二比值;根据所述第一比值和所述第二比值,获取所述分类器的特征值。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一比值和所述第二比值,获取所述分类器的特征值,包括:采用以下公式对所述第一比值和所述第二比值进行计算,得到所述分类器的特征值:其中,WOE表示分类器的特征值,P1表示第一比值,P2表示第二比值。7.根据权利要求4所述的方法,其特征在于,每个样本数据的至少一个衍生变量的数量等于至少一颗虚拟树的数量,每个样本数据的不同衍生变量对应不同虚拟树,所述至少一颗虚拟树中的每颗虚拟树包括多个叶子节点,所述多个叶子节点中的每个叶子节点为一个分类器。8.一种数据分类装置,其特征在于,所述装置包括:获取模块,用于获取待分类数据,所述待分类数据包括多个原始变量的特征值;所述...

【专利技术属性】
技术研发人员:车昱婧
申请(专利权)人:财付通支付科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1