当前位置: 首页 > 专利查询>重庆大学专利>正文

一种预测员工离职的方法及系统技术方案

技术编号:21455008 阅读:63 留言:0更新日期:2019-06-26 05:07
本发明专利技术公开了一种预测员工离职的方法及系统。该方法包括:构建第一训练集和第一验证集;建立第一随机森林预测模型,将第一训练集的所有特征按照重要度的高低依次排序,分别从第一训练集和第一验证集所有特征中选取重要度排名前m个特征作为特征子集,构建第二训练集和第二验证集;基于第二训练集建立第二随机森林预测模型,将决策树的投票权值依据所述决策树的F‑measure值重新设置,获得离职预测模型;将测试集输入离职预测模型获得离职预测结果。基于传统随机森林算法,对数据特征的重要性进行排序以减少数据维度,节约了空间和时间成本,提高了预测效率;建立决策树的不同权值,解决数据不平衡问题。

【技术实现步骤摘要】
一种预测员工离职的方法及系统
本专利技术涉及计算机
,特别是涉及一种预测员工离职的方法及系统。
技术介绍
员工流动率及相关研究属于人力资源规划领域的一个分支,人力资源规划模型通常基于员工流动可能性的概率估计,用来预测企业未来的员工构成情况。针对这些预测的研究是十分必要的,因为它可以保证正确的人在正确的时间出现在合适的位置上。国外的学者提出了很多关于员工离职预测的模型,这些模型大致可以分为两类:定性模型及定量模型。传统的人力资源评价方法多依赖于专家打分,具有较强的主观性与局限性。现有技术中公开号为CN108805413A的中国专利公开了一种员工离职风险预测方法、装置、计算机设各以及存储介质,方法包括:获取待测员工数据,所述待测员工数据包括在职员工数据和己离职员工数据;对所述在职员工数据和所述己离职员工数据进行预处理:从已预处理的已离职员工数据中提取多维度特征信息,并根据所提取的多维度特征信息构建训练集;通过预设随机森林算法对所述训练集进行训练,得到预测模型;根据已预处理的在职员工数据构建测试集,并使用所述预测模型对所述测试集进行预测,从而得到在职员工离职风险的预测结果。该专利虽然可以提升企业预测员工离职意向的能力,以减少企业的损失。但是,对数据集的多维特征并未进行处理,需要极大的存储空间和时间运行成本,另外,预测模型中每个决策树的权重均相同,因此对不平衡数据处理时存在缺陷。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种预测员工离职的方法及系统。为了实现本专利技术的上述目的,根据本专利技术的第一个方面,本专利技术提供了一种预测员工离职的方法,包括:步骤S1,获取已分类员工数据并构建第一训练集和第一验证集;步骤S2,基于第一训练集建立第一随机森林预测模型,利用袋外数据获得第一训练集中每个特征的重要度,将第一训练集的所有特征按照重要度的高低依次排序,分别从第一训练集和第一验证集所有特征中选取重要度排名前m个特征作为特征子集,构建第二训练集和第二验证集;所述m为正整数;步骤S3,基于第二训练集建立第二随机森林预测模型,利用第二验证集计算第二随机森林预测模型中每棵决策树的F-measure值,将决策树的投票权值依据所述决策树的F-measure值重新设置,获得离职预测模型;步骤S4,从待预测员工的数据中提取出特征子集为重要度排名中前m个特征的测试集,将测试集输入离职预测模型,离职预测模型输出待预测员工的离职预测结果。上述技术方案的有益效果为:本专利技术基于传统的随机森林算法,首先对数据中每个特征的重要性进行排序以减少数据维度,基于降维后的离职预测模型极大地节约了空间和时间成本,提高了预测效率;其次,将其与传统随机森林算法结合获得第二随机森林模型,计算第二随机森林模型中每棵决策树的F-measure值,建立决策树的不同权值,以解决数据不平衡的问题,使得离职预测模型的预测结果更加准确,可广泛应用于各大企业中。在本专利技术的一种优选实施方式中,所述已分类员工数据包括已离职、不离职和正在离职的员工的数据。上述技术方案的有益效果为:用于训练和建模的数据具有广泛性,增加离职预测模型的预测准确性。在本专利技术的一种优选实施方式中,在所述步骤S2中,所述利用袋外数据获得第一训练集中每个特征的重要度的步骤包括:步骤S21,对于第一随机森林预测模型中的每棵决策树,使用每棵决策树相应的袋外数据计算OOB错误,第p棵决策树在噪声干扰添加前的OOB错误值标记为errOOB1p;步骤S22,随机向每棵决策树的袋外数据中的特征X中添加噪声干扰,并计算OOB错误,第p棵决策树在特征X中添加噪声干扰后的OOB错误值标记为errOOB2pX;步骤S23,按照步骤S22中的方法完成所有特征的噪声干扰添加以及添加噪声干扰后的OOB错误计算;特征X的重要度的计算公式为:其中,N为第一随机森林预测模型中决策树的数量,N为大于等于1的整数。上述技术方案的有益效果为:通过特征排序,选取出重要的关键的特征作为特征子集,提高了基于该特征子集建立的离职预测模型的准确性;因降低了数据维度,使得预测模型建立更快速,空间和时间消耗较低,模型更易被解释。在本专利技术的一种优选实施方式中,所述步骤S3包括:步骤S31,输入第二验证集,将第二随机森林预测模型中的每棵决策树作为独立的分类器对第二验证集中的每个样本进行分类,得到每个决策树的精确率和召回率,计算决策树的F-measure值:其中,Fj为第二随机森林预测模型中第j个决策树的F-measure值,1≤j≤K,所述K为第二随机森林预测模型中决策树的数量,K为大于等于1的正整数;redallj为第j个决策树的召回率;precisionj为第j个决策树的精确率;步骤S32,在第二随机森林预测模型的基础上将决策树的F-measure值作为所述决策树的投票权值获得离职预测模型;离职预测模型中决策树的投票权值为:Wj=Fj;其中,Wj为离职预测模型中第j个决策树的投票权值;步骤S33,离职预测模型的分类结果为:其中,x为输入离职预测模型的测试集,H(x)为输入测试集x后离职预测模型输出的结果,hj(x)表示第j个决策树输入测试集x的分类结果,Y表示输出变量,函数I()为指标函数。上述技术方案的有益效果为:解决了随机森林算法在处理不平衡数据时存在的缺陷,将F-measure值引入到RF算法中,对不同的决策树分配不同的权重,能够获得更精准的预测结果,提高了非平衡数据分类的表现。在本专利技术的一种优选实施方式中,在所述步骤S2中,选取重要度排名前m个特征作为特征子集依据为:所述m个特征中任一特征的重要度为所有特征重要度的平均值的T倍,所述T大于1,T与预测员工离职的方法的执行设备的可利用硬件资源有关,可利用硬件资源越多T越小,可利用硬件资源越少T越大。上述技术方案的有益效果为:使得该方法可应用于具有不同硬件资源的执行设备,使用范围广。为了实现本专利技术的上述目的,根据本专利技术的第二个方面,本专利技术提供了一种预测员工离职的系统,包括处理器和员工数据单元,所述处理器从员工数据单元获取包含有已分类的员工数据和待预测的员工数据,按照本专利技术所述的预测员工离职的方法对待预测员工进行离职预测。上述技术方案的有益效果为:本系统具有上述预测员工离职的方法的有益效果。附图说明图1是本专利技术一具体实施方式中预测员工离职的方法的流程示意图;图2是是本专利技术一具体实施方式中离职预测模型的结构示意图;图3是本专利技术预测员工离职的方法在一种应用场景中与其他预测方法比较的ROC曲线图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。在本专利技术的描述中,本文档来自技高网...

【技术保护点】
1.一种预测员工离职的方法,其特征在于,包括:步骤S1,获取已分类员工数据并构建第一训练集和第一验证集;步骤S2,基于第一训练集建立第一随机森林预测模型,利用袋外数据获得第一训练集中每个特征的重要度,将第一训练集的所有特征按照重要度的高低依次排序,分别从第一训练集和第一验证集所有特征中选取重要度排名前m个特征作为特征子集,构建第二训练集和第二验证集;所述m为正整数;步骤S3,基于第二训练集建立第二随机森林预测模型,利用第二验证集计算第二随机森林预测模型中每棵决策树的F‑measure值,将决策树的投票权值依据所述决策树的F‑measure值重新设置,获得离职预测模型;步骤S4,从待预测员工的数据中提取出特征子集为重要度排名中前m个特征的测试集,将测试集输入离职预测模型,离职预测模型输出待预测员工的离职预测结果。

【技术特征摘要】
1.一种预测员工离职的方法,其特征在于,包括:步骤S1,获取已分类员工数据并构建第一训练集和第一验证集;步骤S2,基于第一训练集建立第一随机森林预测模型,利用袋外数据获得第一训练集中每个特征的重要度,将第一训练集的所有特征按照重要度的高低依次排序,分别从第一训练集和第一验证集所有特征中选取重要度排名前m个特征作为特征子集,构建第二训练集和第二验证集;所述m为正整数;步骤S3,基于第二训练集建立第二随机森林预测模型,利用第二验证集计算第二随机森林预测模型中每棵决策树的F-measure值,将决策树的投票权值依据所述决策树的F-measure值重新设置,获得离职预测模型;步骤S4,从待预测员工的数据中提取出特征子集为重要度排名中前m个特征的测试集,将测试集输入离职预测模型,离职预测模型输出待预测员工的离职预测结果。2.如权利要求1所述的预测员工离职的方法,其特征在于,所述已分类员工数据包括已离职、不离职和正在离职的员工的数据。3.如权利要求1所述的预测员工离职的方法,其特征在于,在所述步骤S2中,所述利用袋外数据获得第一训练集中每个特征的重要度的步骤包括:步骤S21,对于第一随机森林预测模型中的每棵决策树,使用每棵决策树相应的袋外数据计算OOB错误,第p棵决策树在噪声干扰添加前的OOB错误值标记为errOOB1p;步骤S22,随机向每棵决策树的袋外数据中的特征X中添加噪声干扰,并计算OOB错误,第p棵决策树在特征X中添加噪声干扰后的OOB错误值标记为errOOB2pX;步骤S23,按照步骤S22中的方法完成所有特征的噪声干扰添加以及添加噪声干扰后的OOB错误计算;特征X的重要度的计算公式为:其中,N为第一随机森林预测模型中...

【专利技术属性】
技术研发人员:张程原佳琪徐璐
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1