一种基于XGBoost的员工晋升预测的方法技术

技术编号:38544173 阅读:7 留言:0更新日期:2023-08-22 20:54
本发明专利技术主要关于一种基于XGBoost的员工晋升预测的方法,包括:获取待预测范围内历史员工特征数据集;对历史员工特征数据集预处理后利用SMOTE算法进行过采样,得到员工数据集,划分为员工训练集和员工测试集;利用XGBoost算法对员工训练集数据构建员工晋升预测模型;将员工测试集数据输入员工晋升预测模型进行评估验证;获取待预测范围内待预测员工特征数据集,进行步骤S200获得待预测员工预测集,输入员工晋升预测模型进行预测。采用SMOTE结合XGBoost算法,构成预测模型对员工晋升进行高效预测,效果较单一模型预测更佳,具有良好的鲁棒性和稳定性,验证表明其预测准确度较高。验证表明其预测准确度较高。验证表明其预测准确度较高。

【技术实现步骤摘要】
一种基于XGBoost的员工晋升预测的方法


[0001]本专利技术主要关于数据挖掘
及人工智能
,具体涉及一种员工晋升预测方法,特别是关于一种基于XGBoost的员工晋升预测的方法。

技术介绍

[0002]对于企业来说,人才的晋升、招聘与企业发展息息相关,人才晋升能够对员工有效激励,发挥更大价值,可为企业留住更多有才华的员工,创造更多的收益。人力资源部门需要提升对员工晋升分析、决策的效率,改善传统信息更新缓慢和决策单调的问题,提高人才晋升公平性,有效激励员工工作积极性。
[0003]传统员工晋升预测模型,如随机森林、SVM、多层感知机等模型的缺陷导致构建的预测模型精度不高,预测结果不准确;企业实际情况中员工数据中符合晋升条件员工的比例占少数,数据集存在不平衡问题。存在不平衡特性的员工晋升数据集也会在数据层面降低预测准确度。现有的技术方案没有对员工数据的不平衡性进行平衡,且传统员工晋升预测模型精度上也不高,导致员工晋升风险预测的准确度低。
[0004]前述
技术介绍
知识的记载旨在帮助本领域普通技术人员理解与本专利技术较为接近的现有技术,同时便于对本申请专利技术构思及技术方案的理解,应当明确的是,在没有明确的证据表明上述内容在本专利申请的申请日前已公开的情况下,上述
技术介绍
不应当用于评价本申请技术方案的新创性。

技术实现思路

[0005]为解决上述
技术介绍
中提及的至少一种技术问题,本专利技术的目的旨在提供一种基于XGBoost的员工晋升预测的方法,方法采用SMOTE结合XGBoost算法,构成预测模型对员工晋升进行高效预测,效果较单一模型预测更佳,具有良好的鲁棒性和稳定性,验证表明其预测准确度较高。
[0006]第一部分,一种基于XGBoost的员工晋升预测的方法,包括:
[0007]S100、获取待预测范围内历史员工特征数据集;
[0008]S200、对历史员工特征数据集预处理后利用SMOTE算法对不平衡员工数据进行过采样,得到正负样本均衡的员工数据集,划分为员工训练集和员工测试集;
[0009]S300、利用XGBoost算法对员工训练集数据构建员工晋升预测模型,不断优化调整并确定模型参数;
[0010]S400、将员工测试集数据输入员工晋升预测模型进行评估验证;
[0011]S500、获取待预测范围内待预测员工特征数据集,进行步骤S200获得待预测员工预测集,输入员工晋升预测模型进行预测。
[0012]第二部分,一种基于XGBoost的员工晋升预测装置,包括:
[0013]获取单元,其被配置为获取待预测范围内历史员工特征数据集和待预测员工特征数据集;
[0014]处理单元,其被配置为对获取单元所获取的数据集进行预处理,并利用SMOTE算法对不平衡员工数据进行过采样,得到正负样本均衡的员工数据集,且将历史员工特征数据集划分为员工训练集和员工测试集;
[0015]生成单元,其被配置为利用XGBoost算法对员工训练集数据构建员工晋升预测模型,不断优化调整并确定模型参数;还被配置为将员工测试集数据输入员工晋升预测模型进行评估验证;
[0016]预测单元,其被配置为将待预测员工预测集输入员工晋升预测模型进行预测。
[0017]第三部分,一种计算机可读存储介质,所述计算机可读存储介质内存储有可被处理器执行的计算机程序,所述计算机程序被处理器执行时运行前述所述基于XGBoost的员工晋升预测的方法中的至少一个步骤。
[0018]第四部分,一种计算机设备,所述计算机设备包括存储器、处理器、通信接口以及通信总线;其中,所述存储器、处理器、通信接口通过所述通信总线进行相互间的通信;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的计算机程序,所述处理器执行所述计算机程序时实现前述所述基于XGBoost的员工晋升预测的方法中的至少一个步骤。
[0019]本申请的有益效果为:
[0020]传统员工晋升预测模型的缺陷导致构建的预测模型精度不高,预测结果不准确;企业实际情况中员工数据中符合晋升条件员工的比例占少数,数据集存在不平衡问题。存在不平衡特性的员工晋升数据集也会在数据层面降低预测准确度。现有的技术方案没有对员工数据的不平衡性进行平衡,且传统员工晋升预测模型精度上也不高,导致员工晋升风险预测的准确度低。本专利技术采用SMOTE结合XGBoost算法,构成SMOTE

XGBoost模型对员工晋升进行高效预测,效果较单一模型预测更佳,能够对企业员工的晋升起到高效的预测评估,解决数据性不平衡问题,具有良好的鲁棒性和稳定性,并能结合现有的人力资源人才评估理论模型进行进一步解释和优化,能够满足实用性和普适性的要求。
附图说明
[0021]为让本专利技术的上述和/或其他目的、特征、优点与实例能更明显易懂,下面将对本专利技术的具体实施方式中所需要使用的附图进行简单的介绍,显然地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的情况下还可以根据这些附图获得其他的附图。
[0022]图1是基于XGBoost的员工晋升预测方法流程图;
[0023]图2是基于XGBoost的员工晋升预测方法技术路线图。
具体实施方式
[0024]本领域技术人员可以借鉴本文内容,适当替换和/或改动工艺参数实现,然而特别需要指出的是,所有类似的替换和/或改动对本领域技术人员来说是显而易见的,它们都被视为包括在本专利技术。本专利技术所述产品和制备方法已经通过较佳实例进行了描述,相关人员明显能在不脱离本
技术实现思路
、精神和范围内对本文所述的产品和制备方法进行改动或适当变更与组合,来实现和应用本专利技术技术。
[0025]除非另有定义,本文所使用的技术和科学术语,具有本专利技术所属领域的普通技术人员通常所理解的相同的含义。本专利技术使用本文中所描述的方法和材料;但本领域中已知的其他合适的方法和材料也可以被使用。本文中所描述的材料、方法和实例仅是说明性的,并不是用来作为限制。所有出版物、专利申请案、专利案、临时申请案、数据库条目及本文中提及的其它参考文献等,其整体被并入本文中作为参考。若有冲突,以本说明书包括定义为准。
[0026]除非具体说明,本文所描述的材料、方法和实例仅是示例性的,而非限制性的。尽管与本文所述的那些方法和材料类似或等同的方法和材料可用于本专利技术的实施或测试,但本文仍描述了合适的方法和材料。
[0027]提供一种基于XGBoost的员工晋升预测的方法,包括以下步骤:
[0028]S100、获取待预测范围内历史员工特征数据集;
[0029]S200、对历史员工特征数据集预处理后利用SMOTE算法对不平衡员工数据进行过采样,得到正负样本均衡的员工数据集,划分为员工训练集和员工测试集;
[0030]S300、利用XGBoost算法对员工训练集数据构建员工晋升预测模型,不断优化调整并确定模型参数;
[0031]S40本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost的员工晋升预测的方法,其特征在于包括以下步骤:S100、获取待预测范围内历史员工特征数据集;S200、对历史员工特征数据集预处理后利用SMOTE算法对不平衡员工数据进行过采样,得到正负样本均衡的员工数据集,划分为员工训练集和员工测试集;S300、利用XGBoost算法对员工训练集数据构建员工晋升预测模型,不断优化调整并确定模型参数;S400、将员工测试集数据输入员工晋升预测模型进行评估验证;S500、获取待预测范围内待预测员工特征数据集,进行步骤S200获得待预测员工预测集,输入员工晋升预测模型进行预测。2.根据权利要求1所述的基于XGBoost的员工晋升预测的方法,其特征在于:所述步骤S100及步骤S500中的特征数据集属性包括:所在部门、教育程度、性别、招聘渠道、KPI、上一年获奖、工龄和去年评级。3.根据权利要求1所述的基于XGBoost的员工晋升预测的方法,其特征在于:所述步骤S200中的预处理包括:对特征数据集进行缺失值和异常值处理,填充缺失值和剔除异常值。4.根据权利要求1

3任一项所述的基于XGBoost的员工晋升预测的方法,其特征在于:所述步骤S200中的预处理还包括:对特征数据集中类别型特征进行数值编码,依据类别分别进行二值化、独热编码或归一化,得到标准特征数据集。5.根据权利要求1

3任一项所述的基于XGBoost的员工晋升预测的方法,其特征在于:所述步骤S200中利用SMOTE算法对不平衡员工数据进行过采样,得到正负样本均衡的员工数据集的具体步骤包括:根据向上采样倍率n,从晋升员工样本x
i
的同类别且距离相邻最近的k个近邻样本中随机选取样本作为辅助样本,用以合成新样本,重复n次;在样本x
i
和每个辅助样本之间按照式(1)进行线性插值,完成合成n个样本;x
new
=x
i
+rand(0,1)
×
Δ
ꢀꢀꢀ
(1)其中,x
i
为一个小数量类样本;x
new
为插值新生成的样本;rand(0,1)为0到1中的随机数;Δ=(x

【专利技术属性】
技术研发人员:章涵博黄静郑慧慧
申请(专利权)人:杭州众章数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1