一种特征集获取方法、装置、计算机设备及介质制造方法及图纸

技术编号:24093705 阅读:21 留言:0更新日期:2020-05-09 09:15
本发明专利技术实施例公开了一种特征集获取方法、装置、计算机设备及介质,所述方法包括:获取当前stacking层的输入特征集,得到当前stacking层的分类结果值;将分类结果值与历史分类最大值进行比较;若分类结果值不小于最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据调整后的输入特征集获得下一stacking层的输入特征集;若分类结果值小于最大值,则将当前stacking层的输入特征集与最大值对应的输入特征集的差集中特征的特征值减小,根据调整后的差集获得下一stacking层的输入特征集,加快了stacking阶段收敛到最终的最优解的过程,提高了模型训练效率。

A feature set acquisition method, device, computer equipment and medium

【技术实现步骤摘要】
一种特征集获取方法、装置、计算机设备及介质
本专利技术实施例涉及数据处理
,尤其涉及一种特征集获取方法、装置、计算机设备及介质。
技术介绍
随着人工智能的兴起,机器学习和深度学习的运用范围很广,深度模型的策略能深度学习能进一步抽取特征和特征间的组合,大大提高了事物分类和预测的准确性。2006年,加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。现有的深度模型策略主要包括以下四个方面:1)深度神经网络(DeepNeuralNetworks,DNN)源于神经元的概念,DNN的结构里下层神经元和所有上层神经元都能够形成连接。2)卷积神经网络(ConvolutionalNeuralNetworks,CNN)主要源于图像的卷积操作,CNN是通过卷积核将上下层进行链接,同一个卷积核在所有图像中是共享的,图像通过卷积操作后仍然保留原先的位置关系。3)循环神经网络(RecurrentNeuralNetworks,RNN)主要运用于存在时间序列的应用中,RNN中,神经元的输出可以在下一个时间段直接作用到自身。4)深度随机森林对特征进行融合后,对多个随机森林的单元进行堆叠(stacking),最终完成预测和分类的工作。对于传统的DNN、CNN和RNN的深度模型策略,由于它本身训练过程需要对很多参数进行学习和更新,需要较多的训练数据集。对于传统的深度随机森林的策略,在堆叠(stacking)过程中,每个步骤都是通过迭代训练取stacking阶段均值的最高值作为分类或者预测的结果,这个过程的效率低,同时准确率也只能达到局部的最优解。
技术实现思路
本专利技术实施例提供了一种特征集获取方法、装置、计算机设备及介质,以实现加快深度随机森林模型训练中stacking阶段收敛到最终的最优解的过程,提高模型训练效率。第一方面,本专利技术实施例提供了一种深度随机森林模型训练中堆叠stacking阶段的特征集获取方法,所述方法包括:获取当前stacking层的输入特征集,将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值;将所述当前stacking层的分类结果值与历史分类最大值进行比较,所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值;若所述当前stacking层的分类结果值不小于所述历史分类最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据特征值增加后的输入特征集获得下一stacking层的输入特征集;若所述当前stacking层的分类结果值小于所述历史分类最大值,则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集,并将所述差集中特征的特征值减小,根据特征值减小后的差集获得下一stacking层的输入特征集。第二方面,本专利技术实施例还提供了一种深度随机森林模型训练中堆叠stacking阶段的特征集获取装置,所述装置包括:当前结果获取模块,用于获取当前stacking层的输入特征集,将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值;分类值比较模块,用于将所述当前stacking层的分类结果值与历史分类最大值进行比较,所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值;输入特征集获取模块,用于若所述当前stacking层的分类结果值不小于所述历史分类最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据特征值增加后的输入特征集获得下一stacking层的输入特征集;若所述当前stacking层的分类结果值小于所述历史分类最大值,则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集,并将所述差集中特征的特征值减小,根据特征值减小后的差集获得下一stacking层的输入特征集。第三方面,本专利技术实施例还提供了一种计算机设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所提供的深度随机森林模型训练中堆叠stacking阶段的特征集获取方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的深度随机森林模型训练中堆叠stacking阶段的特征集获取方法。本专利技术实施例通过获取当前stacking层的输入特征集,将输入特征集输入当前stacking层后得到当前stacking层的分类结果值;将当前stacking层的分类结果值与历史分类最大值进行比较,历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值;若当前stacking层的分类结果值不小于历史分类最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据特征值增加后的输入特征集获得下一stacking层的输入特征集;若当前stacking层的分类结果值小于历史分类最大值,则确定当前stacking层的输入特征集与历史分类最大值对应的输入特征集的差集,并将差集中特征的特征值减小,根据特征值减小后的差集获得下一stacking层的输入特征集,加快了stacking阶段收敛到最终的最优解的过程,提高了模型训练效率。附图说明图1a是本专利技术实施例一所提供的深度随机森林模型训练中stacking阶段的特征集获取方法的流程图;图1b是本专利技术实施例一所提供的深度随机森林模型中记忆门的结构示意图;图2是本专利技术实施例二所提供的深度随机森林模型训练中stacking阶段的特征集获取方法的流程图;图3a是本专利技术实施例三所提供的深度随机森林模型训练中stacking阶段的特征集获取方法的流程图;图3b是现有技术中深度随机森林学习模型的训练过程示意图;图3c是本专利技术实施例三所提供的一种深度随机森林学习模型的训练过程示意图;图4是本专利技术实施例四所提供的深度随机森林模型训练中stacking阶段的特征集获取装置的结构示意图;图5是本专利技术实施例五所提供的计算机设备的结构示意图。...

【技术保护点】
1.一种深度随机森林模型训练中堆叠stacking阶段的特征集获取方法,其特征在于,所述方法包括:/n获取当前stacking层的输入特征集,将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值;/n将所述当前stacking层的分类结果值与历史分类最大值进行比较,所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值;/n若所述当前stacking层的分类结果值不小于所述历史分类最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据特征值增加后的输入特征集获得下一stacking层的输入特征集;/n若所述当前stacking层的分类结果值小于所述历史分类最大值,则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集,并将所述差集中特征的特征值减小,根据特征值减小后的差集获得下一stacking层的输入特征集。/n

【技术特征摘要】
1.一种深度随机森林模型训练中堆叠stacking阶段的特征集获取方法,其特征在于,所述方法包括:
获取当前stacking层的输入特征集,将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值;
将所述当前stacking层的分类结果值与历史分类最大值进行比较,所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值;
若所述当前stacking层的分类结果值不小于所述历史分类最大值,则将当前stacking层的输入特征集中特征的特征值增加,根据特征值增加后的输入特征集获得下一stacking层的输入特征集;
若所述当前stacking层的分类结果值小于所述历史分类最大值,则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集,并将所述差集中特征的特征值减小,根据特征值减小后的差集获得下一stacking层的输入特征集。


2.根据权利要求1所述的方法,其特征在于,所述将当前stacking层的输入特征集中特征的特征值增加,包括:
将当前stacking层的输入特征集中各特征的特征值乘以第一预设系数,该第一预设系数为大于1的数值;
相应的,所述将所述差集中特征的特征值减小,包括:
将所述差集中各特征的特征值乘以第二预设系数,该第二预设系数为小于1的数值。


3.根据权利要求2所述的方法,其特征在于,所述第一预设系数为1.5,所述第二预设系数为0.5。


4.根据权利要求1所述的方法,其特征在于,所述根据特征值增加后的输入特征集获得下一stacking层的输入特征集,包括:
采用蒙特卡洛采样算法,对特征值增加后的输入特征集进行特征采样,将采样出的特征构成的特征集,作为下一stacking层的输入特征集;
相应的,所述根据特征值减小后的差集获得下一stacking层的输入特征集,包括:
采用蒙特卡洛采样算法,对特征值减小后的差集进行特征采样,将采样出的特征构成的特征集,作为下一stacking层的输入特征集。


5.根据权利要求1-4中任一项所述的方法,其特征在于,在当前stacking层是第一个stacking层时,获取第一个stacking层的输入特征集,包括:
获取在stacking阶段之前的特征融合阶段进行特征融合后输出的特征矩阵,将所述特征矩阵与进行特征融合时所使用的原始特征矩阵进行合并,得到合并后的特征集;
通过级联随机森林得到合并后的特征集中所有特征的特征值,依据所述特征值对合并后的特征集中的特征进行筛选,得到第一个stacking层的输入特征集。


6.根据权利要求5所述的方法,其特征在于,在特征融合阶段进行特征融合,包括:

【专利技术属性】
技术研发人员:潘剑飞戴明洋石逸轩罗程亮姚远杨胜文范斌周俊许金泉陈家伟王栋刘少杰刘康王楠
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1