本发明专利技术涉及基于分箱置信度筛选深度森林的机器学习分类方法,针对于现有技术中基于深度置信森林对数据分类效果不佳,精确度不高而提出。这是首次将分箱法应用到深度置信筛选森林的门阈值确定之中。首先确定级联森林的一层,之后依靠实例在这一层的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入箱中,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,提高了深度置信筛选森林对于实例分类的预测精度。
【技术实现步骤摘要】
基于分箱置信度筛选深度森林的机器学习分类方法
本专利技术属于机器学习领域,涉及基于分箱置信度筛选深度森林的机器学习分类方法,具体涉及一种分箱置信度筛选深度森林算法对数据特征进行识别从而进行分类的方法。
技术介绍
机器学习中的分类是根据数据中不同的特征,将数据进行区分开来,它利用计算机对数据进行分析和计算,把数据规划为若干个类别中的一种,以代替人为的判断。深度森林是近几年提出的一种独立于深度神经网络之外的深度学习方法,它打破了目前神经网络对深度学习的垄断。它相对比于深度神经网络拥有更少的参数,并且更加容易训练,这使得深度森林拥有更多可研究性。深度森林主要由两个模块:多粒度扫描,级联森林。多粒度扫描多用于处理图像或维度较高且特征之间存在关联的数据集,它的主要目的是特征的重新表示也就是转换特征,它通过使用多个尺度的滑动窗口对数据特征进行扫描,之后将扫描出来的特征作为新的特征输入完全随机森林或者随机森林最后将它们输出的特征作为转换特征。级联森林:级联森林模块是深度森林的主要模块,级联森林由多层组成,每一层由一个或者多个随机森林和完全随机森林构成。每一层随机森林和完全随机森林的输出值会作为一个新的特征输入到下一层,这样构成了深度学习的模式。其中完全随机森林和随机森林是由n(参数可调)棵决策树构成的,完全随机森林的每棵决策树随机选择一个特征作为分裂点,分裂到每个叶子节点只有一个类别或者十个样本为止。随机森林的每棵决策树按照Gini系数进行选择特征进行分裂,之后分裂到每个叶子节点只有一个类别或者十个样本为止。深度置信筛选森林是在深度森林的基础上进行改进,加入了置信度筛选的机制,在时间成本和内存需求上都远远小于深度置信森林。置信度筛选:每一层完全随机森林或者随机森林对一个实例的预测类别向量中的最大值作为其实例的置信度,根据置信度将级联每层输入的实例划分为两个子集:一个容易预测,一个难以预测。如果一个实例很难预测那么它将经历下一层的预测,相反地,如果一个实例很容易预测,那么它的最终预测值将由当前层产生,所以只有当实例在层数i具有高置信度时才会进入下一层。实验表明,通过降低一个数量级的内存需求和更快的运行时间,深度置信筛选森林能够达到和深度森林相当甚至更好的预测精确度。置信度筛选的关键是如何确定一个实例是否为容易预测的实例,这需要设定一个门阈值,当实例置信度大于门阈值时为高置信度实例,也就是容易预测的实例,相反地,当实例置信度小于门阈值时为低置信度,低置信度的实例需要经历下一层的训练。那么这个模型的关键就转移到如何设定门阈值,原算法模型门阈值的设定是将实例按照置信度的大小从大到小排列,排列完后设置一个目标准确率,这个目标准确率为想要此模型达到的准确率,最后设定一个指针,指针根据置信度的值由小向大依次遍历,计算当前指向的实例和大于此实例置信度的图像的准确率,若此准确率大于目标准确率,则将此置信度作为门阈值。上文中的门阈值设定的方法难以避免错误数据堆积的情况,即错误的数据聚集在置信度排列的中下区域,鉴于此情况有必要设计一种改进方法解决上述问题。
技术实现思路
本专利技术针对于现有技术中的分类问题是基于深度置信森林对数据分类效果不佳,精确度不高。所以本专利技术提出一种根据分箱的方法来确定门阈值的深度置信度筛选森林的方法,提高了深度置信筛选森林对于实例分类的预测精度。利用分箱的方法来解决深度置信度筛选中门阈值确定的问题,现有的分箱方法主要是将一些数据离散化、等级化,这是首次将分箱法应用到深度置信筛选森林的门阈值确定之中。首先确定级联森林的一层,之后依靠这一层对每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入箱中,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,完成机器学习样本分类。本专利技术提出的分箱方式是在级联层中的深度置信筛选门阈值的设定进行改进。该方法的具体步骤是:步骤一:获取机器学习分类数据集,并分为训练集数据和测试集数据;训练阶段将训练集数据分为c个类别,训练集数据的容量为n个实例,n个实例输入级联森林的第一层,每一层的森林数量相同且不固定,每一层所有森林产生的对应实例的预测类别向量取平均值作为该层对应实例的预测类别向量(x1,x2,...xc);每一层对每一个实例都会产生一个置信度,计算实例在当前层的置信度:Pi=max(x1,x2,...xc)其中Pi表示第i个实例的置信度;步骤二:计算置信度并排列,首先得到这n个实例在当前层的置信度(P1,P2,...Pn),置信度为实例在当前层预测类别向量中的最大值,(P1,P2,...Pn)的计算公式为:其中M1x1表示为第一个实例预测为第一个类别的概率,Mnxc表示为第n个类别预测为第c个类别的概率;得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度大小排列的实例顺序(Ma1Ma2...Man);步骤三:进行分箱操作,将每一层的实例按照置信度大小排列的顺序(Ma1Ma2...Man)分别装入编号为1,2,3...,L的箱子,因为一共有n个实例,所以每个箱子的容量为n/L,取箱子中所有实例准确率的平均值作为此箱的准确率;步骤四,设置一个指针按照箱子的编号依次向下遍历,直到所指向箱子的下一个箱子的准确率小于目标准确率,目标准确率为想要此模型达到的准确率,找到这个箱子之后就以这个箱子中最后一个实例的置信度作为该层的门阈值;步骤五:计算门阈值,每一层会产生一个门阈值,得到每一层的门阈值之后依靠门阈值对每一层的实例进行筛选,筛选之后会将实例分为两个部分,置信度大于门阈值Gate的为容易预测的实例,这部分实例会以当前层的预测实例作为最终的预测值;置信度小于门阈值的实例为难以预测的实例,将会继续进入下一层进行训练;达到停止生长的层数停止循环;步骤六:依靠训练阶段产生的门阈值将测试集分成两类,确定模型准确率,完成机器学习分类。本专利技术的优点在于门阈值的设定更加精确,本模型改变了门阈值选择的方式,与原模型门阈值确定的方式相对比而言,本专利技术的方法会使得筛选的方式更加苛刻,原模型置信度筛选的方式会将一些原本是难以预测的实例当成容易预测的实例输出,而本专利技术提出的分箱置信度筛选的方式会使得那些难以预测的实例不会被当成容易预测的实例从当前层输出。在原模型中会出现错误数据堆积的问题,例如实例(M1,M2,M3..M12)的预测正确率(预测值和真实标签值是否相同,若相同为1不相同为0),其正确率分别为(1,1,1,1,0,0,1,0,0,1,0,0),因为门阈值的确定处在训练阶段,所以知道实例的真实标签,其中1代表预测正确,0代表预测错误,此时目标准确率为70%,原模型会选择M7的置信度作为门阈值。可以观察到选择M7的置信度作为门阈值并不是最好的选择,而本专利技术的算法则可以更加精确地跳过M5,M6这些错误实例扎堆的情况,因为在箱子容量为二的情况下M5,M6所属的箱本文档来自技高网...
【技术保护点】
1.一种基于分箱置信度筛选深度森林的机器学习分类方法,其特征在于,获取分类样本数据集,确定级联森林的一层,之后依靠该层每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入多个箱中,每个箱中实例个数相同,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,之后依靠门阈值对相应层的实例进行筛选,完成机器学习样本分类。/n
【技术特征摘要】
1.一种基于分箱置信度筛选深度森林的机器学习分类方法,其特征在于,获取分类样本数据集,确定级联森林的一层,之后依靠该层每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入多个箱中,每个箱中实例个数相同,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,之后依靠门阈值对相应层的实例进行筛选,完成机器学习样本分类。
2.根据权利要求1所述的方法,其特征在于,该方法的具体步骤是:
步骤一:获取机器学习分类数据集,并分为训练集数据和测试集数据;
训练阶段将训练集数据分为c个类别,训练集数据的数量为n,n个实例输入级联森林的第一层,每一层的森林数量相同且不固定,每一层所有森林产生的对应实例的预测类别向量取平均值作为该层对应实例的预测类别向量(x1,x2,…xc);
每一层对每一个实例都会产生一个置信度,计算实例在当前层的置信度:
Pi=max(x1,x2,...xc)
其中Pi表示第i个实例的置信度;
步骤二:计算置信度并排列,
首先得到这n个实例在当前层的置信度(P1,P2,...Pn),置信度为实例在当前层预测类别向量中的最大值,(P1,P2,...Pn)的计算公式为:
其中M1x1表示为第一个实例预测为第一个类别的概率,Mnxc表示为第n个类别预测为第c个类别的概率;
得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度大小排列的实例顺序(Ma1Ma2...Man):
步骤三:进行分箱操作,
将每一层的实例按照置信度大小排列的顺序(Ma1Ma2...Man)分别装入编号为1,23…,L的箱子,因为一共有n个实例,所...
【专利技术属性】
技术研发人员:武优西,马鹏飞,崔文峰,成淑惠,赵晓倩,户倩,耿萌,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。