【技术实现步骤摘要】
基于分箱置信度筛选深度森林的机器学习分类方法
本专利技术属于机器学习领域,涉及基于分箱置信度筛选深度森林的机器学习分类方法,具体涉及一种分箱置信度筛选深度森林算法对数据特征进行识别从而进行分类的方法。
技术介绍
机器学习中的分类是根据数据中不同的特征,将数据进行区分开来,它利用计算机对数据进行分析和计算,把数据规划为若干个类别中的一种,以代替人为的判断。深度森林是近几年提出的一种独立于深度神经网络之外的深度学习方法,它打破了目前神经网络对深度学习的垄断。它相对比于深度神经网络拥有更少的参数,并且更加容易训练,这使得深度森林拥有更多可研究性。深度森林主要由两个模块:多粒度扫描,级联森林。多粒度扫描多用于处理图像或维度较高且特征之间存在关联的数据集,它的主要目的是特征的重新表示也就是转换特征,它通过使用多个尺度的滑动窗口对数据特征进行扫描,之后将扫描出来的特征作为新的特征输入完全随机森林或者随机森林最后将它们输出的特征作为转换特征。级联森林:级联森林模块是深度森林的主要模块,级联森林由多层组成,每一层由一 ...
【技术保护点】
1.一种基于分箱置信度筛选深度森林的机器学习分类方法,其特征在于,获取分类样本数据集,确定级联森林的一层,之后依靠该层每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入多个箱中,每个箱中实例个数相同,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,之后依靠门阈值对相应层的实例进行筛选,完成机器学习样本分类。/n
【技术特征摘要】
1.一种基于分箱置信度筛选深度森林的机器学习分类方法,其特征在于,获取分类样本数据集,确定级联森林的一层,之后依靠该层每个实例的预测类别向量计算置信度,然后按照置信度进行排序并将排好序的实例按照顺序放入多个箱中,每个箱中实例个数相同,最后根据需求的准确率确定需求的箱子,并且输出箱子中最后一个实例的置信度为此层置信度筛选的门阈值,之后依靠门阈值对相应层的实例进行筛选,完成机器学习样本分类。
2.根据权利要求1所述的方法,其特征在于,该方法的具体步骤是:
步骤一:获取机器学习分类数据集,并分为训练集数据和测试集数据;
训练阶段将训练集数据分为c个类别,训练集数据的数量为n,n个实例输入级联森林的第一层,每一层的森林数量相同且不固定,每一层所有森林产生的对应实例的预测类别向量取平均值作为该层对应实例的预测类别向量(x1,x2,…xc);
每一层对每一个实例都会产生一个置信度,计算实例在当前层的置信度:
Pi=max(x1,x2,...xc)
其中Pi表示第i个实例的置信度;
步骤二:计算置信度并排列,
首先得到这n个实例在当前层的置信度(P1,P2,...Pn),置信度为实例在当前层预测类别向量中的最大值,(P1,P2,...Pn)的计算公式为:
其中M1x1表示为第一个实例预测为第一个类别的概率,Mnxc表示为第n个类别预测为第c个类别的概率;
得到置信度之后依靠每个实例的置信度对实例进行排列,得到一个按照置信度大小排列的实例顺序(Ma1Ma2...Man):
步骤三:进行分箱操作,
将每一层的实例按照置信度大小排列的顺序(Ma1Ma2...Man)分别装入编号为1,23…,L的箱子,因为一共有n个实例,所...
【专利技术属性】
技术研发人员:武优西,马鹏飞,崔文峰,成淑惠,赵晓倩,户倩,耿萌,
申请(专利权)人:河北工业大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。