数据处理方法和装置制造方法及图纸

技术编号:16663314 阅读:76 留言:0更新日期:2017-11-30 12:10
本发明专利技术公开了一种数据处理方法和装置,涉及数据处理领域。本发明专利技术通过根据决策树对训练数据集中数据的分类结果,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数,再将各个类对应的最高投票数中的最小值确定为该类的判定阈值,能够确定数据被判定为某个类别时所需要满足的最小投票数,从而能够应对各种分类数量的分类问题,提高了分类的准确率。

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及数据处理领域,特别涉及一种数据处理方法和装置。
技术介绍
随机森林是一个由许多基础分类器构成的组合分类器,其中的基础分类器为决策树。不同决策树之间是独立同分布的。当输入一个测试样本时,由所有决策树的投票结果来确定最终样本的所属类别。在实际应用中,为了提升准确率,一种改进方式是加权随机森林方法。加权随机森林方法针对二分类问题。首先设置叶子节点的投票权重均为0.5,然后向每棵决策树中输入一个完备的训练样本集。当样本到达某个叶子节点后,将该节点的权重调整为判断正确的样本数量与到达叶子节点的样本总数的比值。通过上述的调整过程,以修正分类器中叶子节点的权重。
技术实现思路
专利技术人发现,加权随机森林方法只能够解决二分类问题。然而,在实际的应用场景中还存在多分类问题。例如,将图像分类为美食、自然、建筑、人像,将用户分类为20岁以下、20~40岁、40岁以上等等。针对上述问题,专利技术人提供了一种用于训练适用于各种分类数量的随机森林模型的数据处理方法。根据本专利技术实施例的第一个方面,提供一种数据处理方法,包括:将训练数据集输入到构建的随机森林模型中的多棵决策树中,本文档来自技高网...
数据处理方法和装置

【技术保护点】
一种数据处理方法,其特征在于,包括:将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;根据分类结果,统计所述训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;对于所述训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;根据分类结果,统计所述训练数据集中的每个数据对每个类的投票数,其中,数据对某个类的投票数为数据被判定为该类的次数;对于所述训练数据集中的每个数据,将同一数据对各个类的投票数中值最大的投票数确定为最高投票数;根据各个类对应的最高投票数中的最小值确定该类的判定阈值,以便对待测数据进行分类。2.根据权利要求1所述的数据处理方法,其特征在于,如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级最高的投票数确定为最高投票数。3.根据权利要求1所述的数据处理方法,其特征在于,还包括:如果同一数据对各个类的投票数中值最大的投票数有多个,将其中对应类的预设的优先级不是最高的投票数置为修正投票数,其中,同一类对应的投票数和修正投票数之差大于0。4.根据权利要求1所述的数据处理方法,其特征在于,所述根据各个类对应的最高投票数中的最小值确定该类的判定阈值包括:将各个类对应的最高投票数中的最小值确定为该类的判定阈值;或者,将通过不同训练数据集获得的各个类对应的最高投票数中的最小值的均值确定为该类的判定阈值。5.根据权利要求1所述的数据处理方法,其特征在于,还包括:根据所述随机森林模型中的决策树的分类结果和所述判定阈值对数据进行分类。6.根据权利要求5所述的数据处理方法,其特征在于,所述采用所述随机森林模型中的决策树的分类结果和所述判定阈值对数据进行分类包括:将待测数据输入到所述随机森林模型中的多棵决策树中,获得待测数据在每棵决策树上的分类结果;根据分类结果,统计所述待测数据对每个类的投票数;在待测数据对每个类的投票数中,将投票数大于或等于所述判定阈值的类确定为所述待测数据的分类结果。7.根据权利要求6所述的数据处理方法,其特征在于,所述将投票数大于或等于所述判定阈值的类确定为所述待测数据的分类结果包括:将投票数大于或等于所述判定阈值的类中预设的优先级最高的类确定为所述待测数据的分类结果;或者,将投票数大于或等于所述判定阈值的类中投票数最多的类确定为所述待测数据的分类结果;或者,在投票数大于或等于所述判定阈值的多个类中,如果预设的优先级最高的类与其他类的投票数之差大于预设值,将预设的优先级最高的类确定为所述待测数据的分类结果;如果预设的优先级最高的类与其他类的投票数之差不大于预设值,将投票数最多的类确定为所述待测数据的分类结果。8.根据权利要求1所述的数据处理方法,其特征在于,所述随机森林模型的分类数量大于或等于三类。9.一种数据处理装置,其特征在于,包括:分类结果获取模块,被配置为将训练数据集输入到构建的随机森林模型中的多棵决策树中,获得训练数据集中的每个数据在决策树上的分类结果;投票数统计模块,被配置为根据分类结果统计所述训练数...

【专利技术属性】
技术研发人员:郑瑞平
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1