分类器的生成方法及装置、文本的分类方法及装置制造方法及图纸

技术编号:24458807 阅读:26 留言:0更新日期:2020-06-10 16:22
本说明书提供一种分类器的生成方法及装置、文本的分类方法及装置,在进行分类器的生成时,加入了基于样本类别数量计算出的惩罚项,使得决策树的节点包含的类别数量尽量少,提高了节点分裂的纯度。利用该方法训练出的分了器对文本进行分类,可以实现一个分类器对文本类别的多分类计算,因为加入的类别惩罚项,即使进行多分类计算时,也能够保证分类结果的纯度和准确性。并且,一个分类器对文本类别的多分类计算,不需要针对不同的类别分类建立不同的分类器。

Generation method and device of classifier, classification method and device of text

【技术实现步骤摘要】
分类器的生成方法及装置、文本的分类方法及装置
本说明书属于计算机
,尤其涉及一种分类器的生成方法及装置、文本的分类方法及装置。
技术介绍
随着互联网和计算机技术的发展,使用分类器对数据进行分类的场景越来越多,例如:线上交易的业务种类和数量越来越多,大大方便了人们的生活,但同时也带来了越来越多的风险,需要对风险类别进行分类。通常分类器只能进行二分类,对于不同类别的分类,需要建立不同的分类器模型。并且,不同类别的分类器的构建方式可能不同,分类器的构建、维护需要比较多的人力、时间等成本。
技术实现思路
本说明书实施例的目的在于提供一种分类器的生成方法及装置、文本的分类方法及装置,实现了多类别的分类,提高了多类别分类的准确性。第一方面,本说明书实施例提供了一种分类器的生成方法,包括:获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶本文档来自技高网...

【技术保护点】
1.一种分类器的生成方法,包括:/n获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;/n从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;/n基于所述多棵决策树生成所述分类器。/n

【技术特征摘要】
1.一种分类器的生成方法,包括:
获取训练样本集;其中,所述训练样本集中包括多个样本;其中,所述样本具有多个维度的特征数据;其中,所述多个样本被划分为至少二个样本类别;
从所述训练样本集中选择不同的子样本训练集分别对多棵决策树进行训练;其中,所述决策树在生成叶子节点时,以所述叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点分别对应一个样本类别;
基于所述多棵决策树生成所述分类器。


2.如权利要求1所述的方法,所述训练样本集的构建方法包括:
基于样本对应的标签,确定所述样本的样本类别;
根据各个样本的样本类别,进行均匀采样,获得所述训练样本集;其中,所述训练样本集中不同样本类别对应的样本的数量相同。


3.如权利要求1所述的方法,对决策树进行训练的方法包括:
遍历所述子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。


4.如权利要求3所述的方法,所述方法还包括:
若训练获得的所述决策树的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述叶子节点对应的分类结果。


5.如权利要求1-4任一项所述的方法,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设样本类别数量为所述叶子节点对应的子样本训练集中样本类别的数据量减一。


6.一种文本的分类方法,包括:
接收用户提供的文本数据;
获取所述文本数据的多个维度的特征数据;
将所述多个维度的特征数据输入到预先建立好的分类器中,所述分类器包括多棵决策树,其中,每个决策树包括多个叶子节点;其中,每个叶子节点在生成时,以叶子节点中包括的样本类别的数量作为惩罚项,以使叶子节点对应一个样本类别或信息增益小于零;
根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别;
基于所述预测样本类别确定所述文本数据的目标类别。


7.如权利要求6所述的方法,所述根据所述分类器中各个决策树输出的对应所述文本数据的叶子节点,得出每个决策树针对所述文本数据的预测类别包括:
若所述决策树输出的对应所述文本数据的叶子节点包括一个样本类别,则将该样本类别作为所述决策树输出的对应所述文本数据的预测类别;
若所述决策树输出的对应所述文本数据的叶子节点包括一个以上的样本类别,则将样本数量最多的样本类别作为所述决策树对所述文本数据的预测类别。


8.如权利要求6所述的方法,所述基于所述预测样本类别确定所述文本数据的目标类别,包括:
根据所述分类器中各个决策树输出的预测类别进行投票,将票数最多的预测类别作为所述文本数据的目标类别。


9.如权利要求6所述的方法,所述文本数据为投诉信息数据,所述投诉信息数据包括下述至少一种:投诉商户信息、投诉文本信息、投诉用户信息;
所述文本数据的多个维度的特征数据包括下述至少一种:投诉商户的交易频率、活跃度、历史投诉信息;
所述文本数据的目标类别为所述投诉信息数据对应的风险类别。


10.如权利要求6所述的方法,所述分类器的决策树采用下述方法进行训练:
遍历所述决策树的叶子节点对应的子样本训练集中各个样本的特征数据的取值,利用所述惩罚项计算各个特征数据的取值对应的基尼指数增益;
将基尼指数增益最大的特征数据的取值作为决策树对应节点的分割点,对所述决策树的节点进行分裂计算,直至所述决策树的所有叶子节点只对应一个样本类别或信息增益小于零。


11.如权利要求6-10任一项所述的方法,所述叶子节点对应的惩罚项为预设样本类别数量的自然对数与预设指数的乘积,其中所述预设...

【专利技术属性】
技术研发人员:陈帅陈弢
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1