一种极值梯度提升逻辑回归分类预测方法技术

技术编号:20486543 阅读:26 留言:0更新日期:2019-03-02 19:38
一种极值梯度提升逻辑回归分类预测方法,属于大数据分析与智能分类预测领域。通过对样本使用极值梯度提升模型学习之后,将各个样本落在每颗分类与回归树的叶子节点位置进行独热编码组合成新的特征,再与之前的特征结合起来形成组合特征,使得样本的特征增多,组成新的样本。采用逻辑回归法对新样本进行分类预测。融合极值梯度提升与逻辑回归方法;利用极值梯度提升进行特征选择,选择cart树作为基分类器,利用基尼不纯度构成一系列的不相关特征,扩大了特征的维数,将新的特征输入到逻辑回归模型中训练会有更好的预测效果。优点在于,分别利用了极值梯度提升的特征选择和特征扩充的功能,解决了单模型逻辑回归模型预测精度低的问题。

【技术实现步骤摘要】
一种极值梯度提升逻辑回归分类预测方法
本专利技术属于大数据分析与智能分类预测领域,提供了一种极值梯度提升逻辑回归分类预测方法,适用于解决连续或离散的变量,多样本多维离散或连续特征数据的分类与预测,可应用于医疗诊断,故障诊断以及精度预测等领域。
技术介绍
数据处理、分析与特征分类预测广泛应用于各个领域,随着人工智能与机器学习理论与方法的蓬勃发展,基于深度学习的分类预测广泛应用于语音系统,人脸识别和目标检测,并取得了突破性进展。但因基于机器学习的分类预测方法无法满足有限样本的学习,迫切需要新算法新理论的研究与创新。极值梯度提升是由陈天奇提出并封装的一种对数据进行分类与预测的有效集成学习方法之一,由于分类与回归树的基尼分支特性,该集成算法可以不考虑特征之间的相关性,每次选出最优的特征进行分支,极值梯度提升还实现了特征选择的并行化,提高了运行的效率,对样本的随机抽样从一定程度上防止了模型的过拟合问题。但是,极值梯度提升方法不适用于样本特征少且各特征之间的关联性不大的数据的分析,所获预测精度较低。逻辑回归是一种基于概率的分类算法,它是一种广义线性回归算法,是应用非常广泛的一个分类机器学习算法,它将数据拟合到一个对数损失函数(或者叫做逻辑回归函数)中,从而能够完成对事件发生的概率进行预测。非常适用于特征不相关的离散变量的分类预测,广泛应用于预测是否故障,用户是否流失以及推荐广告等。逻辑回归模型是一种线性模型,对特征处理要求比较高,如果特征处理不当,模型会出现较大缺陷,如果特征变量过多,会导致逻辑回归模型出现多重线性问题,降低预测准确率。如果特征变量较少,解释性不足,得不到理想的结果。
技术实现思路
本专利技术的目的在于提供一种极值梯度提升逻辑回归分类预测方法,解决较少特征有限样本数据的高精度分类预测问题。本专利技术的研究发现融合极值梯度提升特征提取法与逻辑回归建模是解决有限样本数据高精度分类预测的有效途径之一。本专利技术的技术方案是:通过对样本使用极值梯度提升模型学习之后,将各个样本落在每颗分类与回归树的叶子节点位置进行独热编码组合成新的特征,再与之前的特征结合起来形成组合特征,使得样本的特征增多,组成新的样本。采用逻辑回归法对新样本进行分类预测。具体方案如下:步骤1、将所有样本放入极值梯度提升模型中进行训练,极值梯度提升是由一系列分类与回归树集成的,所以可以统计每个样本落在每棵分类与回归树树叶子节点的位置,对于每棵树,对该位置记为1,其余叶子节点记为0,即独热编码。假设有n棵树,每棵树深度为m,则每个样本可增加的特征数为:n*2m-1步骤2、将步骤1中的特征数据通过极值梯度提升计算每个特征的重要程度。重要程度计算如下:对于每个特征,计算极值梯度提升中所有分类与回归树树每个分支是否选择该特征的总和。这样可以得到每个特征的重要系数,根据实际情况将重要系数比较低的特征去掉,留下对结果影响相对比较大的特征,可以提高后续的预测准确率。步骤3、将步骤2中得到的新的数据集输入到逻辑回归模型中,该模型是在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为各类判别的概率。如果是多分类问题,可以采用Softmax函数取每个类别的概率,概率大的类别为预测结果类别。其中Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间(简记Sigmoid)。Softmax函数是一种归一化指数函数,是逻辑函数的一种推广(简记Softmax)。步骤4、模型的评估。对于二分类问题,可以采用如下评估方法:准确率:召回率:F1值:其中,TP为真正例,描述真实类别为正例,预测类别为正例。FP为假正例,描述真实类别为负例,预测类别为正例。FN为假负例,描述真实类别为正例,预测类别为负例。TN为真负例,描述真实类别为负例,预测类别为负例。对于多分类任务,可以采用混淆矩阵的方法评估。混淆矩阵的每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的实例的数目。本专利技术融合极值梯度提升与逻辑回归方法,解决了少特征有限样本数据的高精度分类与预测问题。首先,利用极值梯度提升进行特征选择,选择cart树作为基分类器,利用基尼不纯度构成一系列的不相关特征,扩大了特征的维数,将新的特征输入到逻辑回归模型中训练会有更好的预测效果。本专利技术的优点在于:本专利技术融合了极值梯度提升和逻辑回归两种算法,结合两种算法的优点,使得数据特征增多,特征选择性增强,新的算法的预测能力有了显著的提高。为多维多样本数据提供了一种新的数据处理和预测方法。附图说明图1为样本编码样例图。图2为预测函数图。具体实施方式下面将本专利技术应用于鸢尾花的分类分析与处理中,说明其应用方法和有效性。以事先处理好的三万用户的特征为训练数据,预测结果分为3类,本专利技术将详细说明的实施方法,因为该类数据的特征之间独立同分布,而且数据为离散变量,符合本专利技术算法的大前提条件。步骤1、极值梯度提升中基分类器的选择:线性分类器和分类与回归树树,由于数据是非线性的,所以使用分类与回归树树的非线性特性更强。对所有数据使用极值梯度提升进行训练,学习率为0.1,分类与回归树树的深度为3,树的个数为200,每个样本都可以落在每棵树的某个叶子节点中。如图1为一个样本落在一棵树上的编码。步骤2、分类与回归树树在分支的时候会基于基尼指数大小进行特征选择,每分支一次选择一个特征。给定数据共有九个特征,可以统计在200颗树中每个特征被选择的次数总和,如表1。由表1可知S8、S9的重要系数很低,可以去掉,只用前7个特征进行训练。S1-S9表示为9个特征。表1:特征重要系数统计特征S1S2S3S4S5S6S7S8S9重要系数48740417811296402871步骤3、将步骤1中编号的码和步骤2中选好的特征结合起来组成新的特征,这样原3万个数据集的特征维数扩增了。将新的数据集划分为训练集(70%)和测试集(30%),将训练集放入逻辑回归进行数据训练,采用Softmax函数取每个类别的概率,概率大的类别为预测结果类别,如图2所示。步骤4、模型的评估,本专利技术采用极值梯度提升和逻辑回归模型融合的方法对数据进行了准确率预测,同时对比了采用单模型的极值梯度提升、逻辑回归以及支持向量机模型的预测准确率如表2。(支持向量机是一种以几何间隔最大化为目标的分类模型)表2:模型准确率对比预测模型准确率逻辑回归0.788支持向量机0.792极值梯度提升0.813极值梯度提升和逻辑回归融合模型0.846步骤5、根据表2可以看出采用极值梯度提升和逻辑回归融合模型后准确率有显著的提高。综上所述,较之单模型预测法,合理的利用模型的优势进行模型融合,不仅能够提高工作效率而且还可以提高模型的预测准确率,本专利技术正式采用了极值梯度提升的并行化和特征选择优势以及逻辑回归广泛应用于特征不相关的数据预测特性,使得融合模型具有更高的准确率。本文档来自技高网
...

【技术保护点】
1.一种极值梯度提升逻辑回归分类预测方法,其特征在于,具体步骤如下:步骤1、将所有样本放入极值梯度提升模型中进行训练,极值梯度提升是由一系列分类与回归树集成的,统计每个样本落在每棵分类与回归树树叶子节点的位置,对于每棵树,对该位置记为1,其余叶子节点记为0,即独热编码;假设有n棵树,每棵树深度为m,则每个样本增加的特征数为:n*2m‑1;步骤2、将步骤1中的特征数据通过极值梯度提升计算每个特征的重要程度;重要程度计算如下:对于每个特征,计算极值梯度提升中所有分类与回归树树每个分支是否选择该特征的总和;这样得到每个特征的重要系数,将重要系数比较低的特征去掉,留下对结果影响相对比较大的特征,提高后续的预测准确率;步骤3、将步骤2中得到的新的数据集输入到逻辑回归模型中,该模型是在线性模型的基础上通过Sigmoid函数将输入函数值映射到0到1区间,作为各类判别的概率;当是多分类问题,采用Softmax函数取每个类别的概率,概率大的类别为预测结果类别;其中Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线;将变量映射到0,1之间;Softmax函数是一种归一化指数函数,是逻辑函数的一种推广;步骤4、模型的评估。对于二分类问题,采用如下评估方法:准确率:...

【技术特征摘要】
1.一种极值梯度提升逻辑回归分类预测方法,其特征在于,具体步骤如下:步骤1、将所有样本放入极值梯度提升模型中进行训练,极值梯度提升是由一系列分类与回归树集成的,统计每个样本落在每棵分类与回归树树叶子节点的位置,对于每棵树,对该位置记为1,其余叶子节点记为0,即独热编码;假设有n棵树,每棵树深度为m,则每个样本增加的特征数为:n*2m-1;步骤2、将步骤1中的特征数据通过极值梯度提升计算每个特征的重要程度;重要程度计算如下:对于每个特征,计算极值梯度提升中所有分类与回归树树每个分支是否选择该特征的总和;这样得到每个特征的重要系数,将重要系数比较低的特征去掉,留下对结果影响相对比较大的特征,提高后续的预测准确率;步骤3、将步骤2中得到的新的数据...

【专利技术属性】
技术研发人员:陈金香范谨麒张云贵
申请(专利权)人:冶金自动化研究设计院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1