一种特征集获取方法、装置、计算机设备及介质制造方法及图纸

技术编号：24093705 阅读：21 留言：0更新日期：2020-05-09 09:15

本发明专利技术实施例公开了一种特征集获取方法、装置、计算机设备及介质，所述方法包括：获取当前stacking层的输入特征集，得到当前stacking层的分类结果值；将分类结果值与历史分类最大值进行比较；若分类结果值不小于最大值，则将当前stacking层的输入特征集中特征的特征值增加，根据调整后的输入特征集获得下一stacking层的输入特征集；若分类结果值小于最大值，则将当前stacking层的输入特征集与最大值对应的输入特征集的差集中特征的特征值减小，根据调整后的差集获得下一stacking层的输入特征集，加快了stacking阶段收敛到最终的最优解的过程，提高了模型训练效率。

A feature set acquisition method, device, computer equipment and medium

全部详细技术资料下载

【技术实现步骤摘要】
一种特征集获取方法、装置、计算机设备及介质
本专利技术实施例涉及数据处理
，尤其涉及一种特征集获取方法、装置、计算机设备及介质。
技术介绍
随着人工智能的兴起，机器学习和深度学习的运用范围很广，深度模型的策略能深度学习能进一步抽取特征和特征间的组合，大大提高了事物分类和预测的准确性。2006年，加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。因此，“深度模型”是手段，“特征学习”是目的。深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。现有的深度模型策略主要包括以下四个方面：1)深度神经网络(DeepNeuralNetworks，DNN)源于神经元的概念，DNN的结构里下层神经元和所有上层神经元都能够形成连接。2)卷积神经网络(ConvolutionalNeuralNetworks，CNN)主要源于图像的卷积操作，CNN是通过卷积核将上下层进行链接，同一个卷积核在所有图像中是共享的，图像通过卷积操作后仍然保留原先的位置关系。3)循环神经网络(RecurrentNeuralNetworks，RNN)主要运用于存在时间序列的应用中，RNN

【技术保护点】
1.一种深度随机森林模型训练中堆叠stacking阶段的特征集获取方法，其特征在于，所述方法包括：/n获取当前stacking层的输入特征集，将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值；/n将所述当前stacking层的分类结果值与历史分类最大值进行比较，所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值；/n若所述当前stacking层的分类结果值不小于所述历史分类最大值，则将当前stacking层的输入特征集中特征的特征值增加，根据特征值增加后的输入特征集获得下一stacking层的输入特征集；/n若所述当前stacking层的分类结果值小于所述历史分类最大值，则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集，并将所述差集中特征的特征值减小，根据特征值减小后的差集获得下一stacking层的输入特征集。/n

【技术特征摘要】
1.一种深度随机森林模型训练中堆叠stacking阶段的特征集获取方法，其特征在于，所述方法包括：
获取当前stacking层的输入特征集，将所述输入特征集输入当前stacking层后得到当前stacking层的分类结果值；
将所述当前stacking层的分类结果值与历史分类最大值进行比较，所述历史分类最大值是指当前stacking层的分类结果值和当前stacking层之前的各stacking层的分类结果值中的最大值；
若所述当前stacking层的分类结果值不小于所述历史分类最大值，则将当前stacking层的输入特征集中特征的特征值增加，根据特征值增加后的输入特征集获得下一stacking层的输入特征集；
若所述当前stacking层的分类结果值小于所述历史分类最大值，则确定当前stacking层的输入特征集与所述历史分类最大值对应的输入特征集的差集，并将所述差集中特征的特征值减小，根据特征值减小后的差集获得下一stacking层的输入特征集。

2.根据权利要求1所述的方法，其特征在于，所述将当前stacking层的输入特征集中特征的特征值增加，包括：
将当前stacking层的输入特征集中各特征的特征值乘以第一预设系数，该第一预设系数为大于1的数值；
相应的，所述将所述差集中特征的特征值减小，包括：
将所述差集中各特征的特征值乘以第二预设系数，该第二预设系数为小于1的数值。

3.根据权利要求2所述的方法，其特征在于，所述第一预设系数为1.5，所述第二预设系数为0.5。

4.根据权利要求1所述的方法，其特征在于，所述根据特征值增加后的输入特征集获得下一stacking层的输入特征集，包括：
采用蒙特卡洛采样算法，对特征值增加后的输入特征集进行特征采样，将采样出的特征构成的特征集，作为下一stacking层的输入特征集；
相应的，所述根据特征值减小后的差集获得下一stacking层的输入特征集，包括：
采用蒙特卡洛采样算法，对特征值减小后的差集进行特征采样，将采样出的特征构成的特征集，作为下一stacking层的输入特征集。

5.根据权利要求1-4中任一项所述的方法，其特征在于，在当前stacking层是第一个stacking层时，获取第一个stacking层的输入特征集，包括：
获取在stacking阶段之前的特征融合阶段进行特征融合后输出的特征矩阵，将所述特征矩阵与进行特征融合时所使用的原始特征矩阵进行合并，得到合并后的特征集；
通过级联随机森林得到合并后的特征集中所有特征的特征值，依据所述特征值对合并后的特征集中的特征进行筛选，得到第一个stacking层的输入特征集。

6.根据权利要求5所述的方法，其特征在于，在特征融合阶段进行特征融合，包括：

【专利技术属性】
技术研发人员：潘剑飞，戴明洋，石逸轩，罗程亮，姚远，杨胜文，范斌，周俊，许金泉，陈家伟，王栋，刘少杰，刘康，王楠，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人