一种基于改进的gcForest员工离职预测方法技术

技术编号:32330422 阅读:63 留言:0更新日期:2022-02-16 18:37
本发明专利技术涉及员工离职预测技术领域,且公开了一种基于改进的gcForest员工离职预测方法,所述员工离职预测方法的过程为:(1)、建立算法基础;GcForest模型,其分为两个阶段:多粒度扫描和级联森林,多粒度扫描阶段将原始特征进行转化为类别概率向量作为输入特征,输入特征在级联森林阶段经过多个级联层得出预测结果;在级联森林结构中,每一层都包含两种森林:随机森林和极端森林,每个随机森林和极端森林内部由若干个随机树组成;该模型通过在gcForest的级联部分加入CatBoost模型以及gcForest的末尾连接AdaBoost模型,使gcForest能够处理更加复杂的问题,提升了gcfoest的准确性。并应用该模型实现对某企业的员工离职预测,实验结果显示,改进的gcForest模型的预测准确率为89.68%,AUC为0.720。AUC为0.720。AUC为0.720。

【技术实现步骤摘要】
一种基于改进的gcForest员工离职预测方法


[0001]本专利技术涉及员工离职预测
,具体为一种基于改进的gcForest员工离职预测方法。

技术介绍

[0002]员工离职会造成企业招聘和培训成本的提升,同时也有导致企业团队人心涣散,以及增加企业核心机密泄露的风险。长期来看,员工离职会造成企业人力资源不足等问题。针对员工离职的问题,国内外学者关于员工离职的研究工作主要分为三个方向即员工离职因素研究、降低员工离职率的措施研究和员工离职的预测研究。关于离职员工预测的研究大都采用与深度学习模型相结合的方式进行研究。
[0003]徐璐提出了加权随机森林模型,并利用模型发现了企业影响员工离职的核心因素。张紫君采用梯度提升决策树算法对员工离职进行预测,并对特征重要性进行排名,总结了员工离职的重要影响因素。陈沛光采用随机森林模型实现了对电力企业员工离职的预测。李芸,胡可等人利用SVM算法实现了对电力企业员工离职的预测。李强,翟亮通过stacking集成学习算法组合AdaBoost和random forest基本算法构建的LRA预测模型对企业员工离职进行预测,取得了相比于单一模型较高的准确性。王志宁通过建立XGBoost算法,实现对员工离职的预测,并应用了模型可解释(SHAP)方法得出影响员工离职重要因素。
[0004]以上的算法模型存在准确性不高或可解释性不足的问题。有待于进一步提高离职预测模型的准确性和可解释性。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于改进的gcForest员工离职预测方法,解决了上述
技术介绍
中提出的问题。
[0007](二)技术方案
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于改进的gcForest员工离职预测方法,所述员工离职预测方法的过程为:
[0009](1)建立算法基础
[0010]GcForest模型,其分为两个阶段:多粒度扫描和级联森林,多粒度扫描阶段将原始特征进行转化为类别概率向量作为输入特征,输入特征在级联森林阶段经过多个级联层得出预测结果;
[0011]在级联森林结构中,每一层都包含两种森林:随机森林和极端森林,每个随机森林和极端森林内部由若干个随机树组成,由多粒度扫描结构处理得到的概率向量经过第一层的级联结构的处理输入到下一层,每层级联结构处理完毕都会在验证集上得到预测结果,如果某一层的预测结果没有明显提升,就不在继续训练,并最终得出预测结果;
[0012]AdaBoost,AdaBoost算法通过对同一个训练样本训练出不同的弱分类器,然后,将
这些弱分类器通过一定的策略组合之后,最终合成一个强分类器来实现;
[0013]Catboost算法,CatBoot是对于梯度提升决策树的一种改进算法;
[0014]改进gcForest算法,通过在级联部分加入CatBoost模型以及在末尾连接AdaBoost;
[0015](2)数据预处理
[0016]选取数据集;
[0017]对无关的数据进行清洗,首先根据热图的显示结果分析发现,EmployeeNumber,Over18,StandardHours三个特征为模型训练的无关特征,故选择删除;
[0018]对于包括BusinessTravel,Department,EducationField等7个字符串形式的特征变量进行数字化处理;
[0019]对于包括Age,DistanceFromHome,MonthlyIncome等10个连续的特征变量进行等距离离散化处理,最终共划分为50个特征变量;
[0020]对于包括BusinessTravel,Department,Education等17个离散的数据特征采用独热编码处理,最终共划分66个特征变量;
[0021]对处理后的特征变量进行合并,对合并之后的116个特征采用方差选择法VarianceThreshold进行特征选择,总共选取48个特征作为模型的输入数据。
[0022]采用数据随机划分的方式,将模型的输入数据划分为80%的训练数据和20%的测试数据用于模型的测试;
[0023](3)实验及结果分析
[0024]采用准确率、精确率、召回率衡量模型的分类性能以外,还采用AUC值来衡量模型的分类性能,TP为离职员工分类正确的个数,FN为离职员工分类错误的个数,TN代表未离职员工分类正确的个数,FP代表未离职员工分类错误的个数,一般可以用混淆矩阵来描述TP、TN、FP、FN,
[0025]准确性Accuracy的公式为:
[0026][0027]精确率Precision的公式为:
[0028][0029]召回率Recal的公式为:
[0030][0031]精准率和召回率采用加权平均weighted avg参数来进行模型的对比实验,利用gcForest模型具有可解释性的特点对于输入的特征进行重要性排序,得出影响员工离职因素的重要性排序,员工离职因素根据重要性由大到小分别为:月收入、年龄、总工龄、离家距离等。
[0032]优选的,所述数据预处理中,共1100条员工数据,每个员工数据包含31个特征,将数据类型分为整型和字符串型。
[0033]优选的,所述实验及结构分析中,数据集中未离职样本个数为922个,离职样本个
数为178个,为不平衡样本。
[0034]优选的,所述AUC用于评价模型二分类的性能。
[0035]优选的,所述多粒度扫描就是利用滑动窗口对原始数据进行扫描,扫描的得到的数据经过所述随机森林和完全随机森林两种结构模型从而得到所述级联森林的输入数据。
[0036](三)有益效果
[0037]本专利技术提供了一种基于改进的gcForest员工离职预测方法,具备以下有益效果:
[0038](1)、本专利技术中,该模型通过在gcForest的级联部分加入CatBoost模型以及gcForest的末尾连接AdaBoost模型,使gcForest能够处理更加复杂的问题,提升了gcfoest的准确性。并应用该模型实现对某企业的员工离职预测。实验结果显示,改进的gcForest模型的预测准确率为89.68%,AUC为0.720,相比于gcForest准确性提升了1.96%,AUC值提升了0.062,并且优于KNN、SVM、以及随机森林模型。通过对输入特征进行研究,得出了影响销售员工离职的主要因素,及不同月收入、年龄、总工龄、离家距离人群离职的主要原因,利于对员工采取实际的措施,最大限度避免企业所遭受的损失。
附图说明
[0039]图1为本专利技术多粒度扫描的结构图;
[0040]图2为本专利技术级联森林结构图;
[0041]图3为本专利技术级联部分的改进gcForest模型图;
[0042]图4为本专利技术员工信息表;
[0043]图5为本专利技术改进gcFor本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的gcForest员工离职预测方法,其特征在于,所述员工离职预测方法的过程为:(1)建立算法基础GcForest模型,其分为两个阶段:多粒度扫描和级联森林,多粒度扫描阶段将原始特征进行转化为类别概率向量作为输入特征,输入特征在级联森林阶段经过多个级联层得出预测结果;在级联森林结构中,每一层都包含两种森林:随机森林和极端森林,每个随机森林和极端森林内部由若干个随机树组成,由多粒度扫描结构处理得到的概率向量经过第一层的级联结构的处理输入到下一层,每层级联结构处理完毕都会在验证集上得到预测结果,如果某一层的预测结果没有明显提升,就不在继续训练,并最终得出预测结果;AdaBoost,AdaBoost算法通过对同一个训练样本训练出不同的弱分类器,然后,将这些弱分类器通过一定的策略组合之后,最终合成一个强分类器来实现;Catboost算法,CatBoot是对于梯度提升决策树的一种改进算法;改进gcForest算法,通过在级联部分加入CatBoost模型以及在末尾连接AdaBoost;(2)数据预处理选取数据集;对无关的数据进行清洗,首先根据热图的显示结果分析发现,EmployeeNumber,Over18,StandardHours三个特征为模型训练的无关特征,故选择删除;对于包括BusinessTravel,Department,EducationField等7个字符串形式的特征变量进行数字化处理;对于包括Age,DistanceFromHome,MonthlyIncome等10个连续的特征变量进行等距离离散化处理,最终共划分为50个特征变量;对于包括BusinessTravel,Department,Education等17个离散的数据特征采用独热编码处理,最终共划分66个特征变量;对处理后的特征变量进行合并,对合并之后的116...

【专利技术属性】
技术研发人员:汪澜刘桢泽
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1