An automobile fault prediction method based on information gain and lightgbm model is proposed. The information gain value is used as the evaluation index to measure the correlation degree between features and categories to select features and generate training samples. After training the lightgbm imbalance model through training samples, step-by-step grid search is used to optimize model parameters and the optimized model is used for automobile fault prediction; The invention improves the efficiency of the model and improves the fault recall rate, thereby significantly enhancing the prediction ability of the automobile fault.
【技术实现步骤摘要】
基于信息增益和LightGBM模型的汽车故障预测方法
本专利技术涉及的是一种汽车制造领域的技术,具体是一种基于信息增益和LightGBM模型的汽车故障预测方法。
技术介绍
汽车故障预测是指对于收集到的汽车故障数据集,建立机器学习模型,从而预测新的样本所属的类别,即故障或正常,从而对有故障的汽车及时进行检修,将汽车故障引起的交通事故防患于未然。收集到的汽车故障数据集常呈现出特征维度高、类别不平衡的特点,而现有的汽车故障预测方法大多忽视了这两个特点,导致故障查全率较低。如何准确地量化特征与与类别的相关性以剔除掉不相关的特征,并增强对类别不平衡数据集的预测能力,是汽车故障预测中亟待解决的问题。
技术实现思路
本专利技术针对现有方法的不足,提出一种基于信息增益和LightGBM模型的汽车故障预测方法,使用信息增益衡量特征与与类别的相关性,进而剔除了不相关的特征;针对类别不平衡问题,建立了带有类别权重和L1、L2正则化项的LightGBM不平衡分类模型,提高了对故障的查全率。本专利技术是通过以下技术方案实现的:本专利技术涉及一种基于信息增益和LightGBM模型的汽车故障预测方法,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,使用训练样本对LightGBM不平衡分类模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测。所述的信息增益(InformationGain,IG)是指:某特征所提供的类别可分性的信息,定义为先 ...
【技术保护点】
1.一种基于信息增益和LightGBM模型的汽车故障预测方法,其特征在于,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,通过训练样本对LightGBM不平衡模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测;/n所述的LightGBM不平衡分类模型是指:以决策树为基学习器的集成学习模型,通过使用直方图算法寻找决策树的最佳分裂结点,并使用带深度限制的叶子生长策略分裂结点,该模型在损失函数中引入了类别权重和L
【技术特征摘要】
1.一种基于信息增益和LightGBM模型的汽车故障预测方法,其特征在于,以信息增益值作为评价指标度量特征与类别间的相关程度进行特征选择和训练样本的生成,通过训练样本对LightGBM不平衡模型训练后,进一步采用分步网格搜索优化模型参数并将优化后的模型用于汽车故障预测;
所述的LightGBM不平衡分类模型是指:以决策树为基学习器的集成学习模型,通过使用直方图算法寻找决策树的最佳分裂结点,并使用带深度限制的叶子生长策略分裂结点,该模型在损失函数中引入了类别权重和L1、L2正则化项,具体为:修正损失函数其中:类别权重系数出于放大少数类损失的目的,将少数类权重系数γ设置为一个大于1的整数,是单棵决策树对样本类别yi和预测类别的损失函数,α||ω||1为L1正则化项,为L2正则化项,ω为决策树的参数,在模型训练过程将由决策树算法自动设定,α、β为正则化项系数。
2.根据权利要求1所述的汽车故障预测方法,其特征是,所述的信息增益是指:某特征所提供的类别可分性的信息,定义为先验熵H(F)与后验熵H(F|Y)的差值:IG(F;Y)=H(F)-H(F|Y),其中:特征F的先验熵H(F)=-∑iP(fi)log2(P(fi)),其中:P(f)为特征f的概率密度函数;特征F对类别Y的后验熵H(F|Y)=-∑jP(yj)∑iP(fi|yj)log2(P(fi|yj)),其中:P(f|y)为特征f对类别Y的条件概率密度函数;<...
【专利技术属性】
技术研发人员:朱平,颜诗旋,刘钊,刘灿,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。