2024年4月13日发(作者:)
第39卷 第3期
2021年 3月
数字技术与应用
Digital Technology &Application
Vol.39 No.3
March 2021
2021年第 3 期
学术论坛
DOI:10.19695/12-1369.2021.03.62
基于XGBoost的员工离职预测及特征分析模型
王志宁
(新疆财经大学统计与数据科学学院,新疆乌鲁木齐 830001)
摘要:随着人力资源管理数据化的价值不断凸显,员工离职预测问题成为人力资源管理的新方向。首先,以数据科学竞赛
平台Kaggle中的员工分析数据集为研究对象,进行预处理;其次,建立XGBoost员工离职预测模型,结合评价指标分析模型效果,
并与Logistic、朴素贝叶斯、支持向量机算法进行对比分析,证明XGBoost模型在准确率(Accuracy)、F1值和AUC值三项指标
上的优势;最后,运用SHAP方法分析影响员工离职决策的重要因素,为员工的管理及留任提供决策支持。
关键词:机器学习;离职预测;XGBoost算法;SHAP
中图分类号:TP18文献标识码:A文章编号:1007-9416(2021)03-0193-04
0 引言
当今就业环境、人力资源管理策略在科学技术发展的
影响下呈现出新特点:一方面,重要人才成为影响企业核
心竞争力、质量效益的关键;另一方面,员工离职的影响
也在加剧,关键性人才的主动离职会对公司的运营造成
损失,也增加了重新招聘及新员工培训的成本。而随着数
据挖掘技术的发展,人力资源策略数据化的价值不断放
大。基于员工情况、薪资等各项指标数据建立机器学习算
法模型,预测员工的离职倾向逐渐成为人力资源管理的
新方向。员工离职预测能协助管理者提前介入员工的离
[1]
析员工离职决策的成因。
1 模型方法
离职预测是二分类问题,设员工数据集为X,包含员
工的工作满意程度、相对薪资等特征,Y为目标变量,即员
工是否离职。基于XGBoost算法构建员工离职预测模型,
XGBoost是梯度提升决策树的改进算法,其完整的目标函
数如公式(1)所示,由损失函数和正则化惩罚项相加而成,
正则化项用以控制模型的复杂度。其中
y
i
为样本真实值,
为预测值,
f
t
为每一轮迭代所建立的树模型,最优化目
标函数即求解出树结构。集成的基本思想是在每一轮迭
代过程中,增加一棵决策树,使模型的效果能够提升,过
程如公式(2)所示。为第
t
轮迭代模型的预测值,
模型。
(1)
为
前
t1
轮的模型预测,
f
t
(
x
i
)
表示第
t
轮迭代新加入的树
职意向,调整管理策略,为保留人才赢得时机,也扩大为
员工留任提供解决方案的空间。
员工离职是人力资源领域的核心问题,有不少学者针
对员工离职问题进行研究
[5]
[2-4]
。而人力资源管理策略数据
化的不断发展,针对员工离职问题的预测研究也颇受关
注,刘婷婷运用C4.5决策树算法选取IBM分析平台样例
数据,建模预测员工是否离职
[6]
。张紫君基于GBDT算法研
究员工离职的预测问题,并根据特征重要性总结员工离
职的影响因素
[7]
。李强等人结合Adaboost和Random Forest
算法构建员工离职预测模型,取得了高于单一算法模型
的预测准确性
[8]
。
为进一步提高离职预测模型的性能及可解释性。本文
基于数据科学竞赛平台Kaggle中的员工分析数据集,运用
XGBoost算法构建员工离职预测模型,与机器学习主流算
法进行相应模型评价指标的实验对比,验证XGBoost模型
的效果,并结合SHAP方法提升预测模型的可解释性,分
收稿日期:2021-02-02
作者简介:王志宁(1994—),男,山西临汾人,硕士研究生,研究方向:机器学习。
(2)
XGBoost利用二阶泰勒级数近似目标函数,将目标函
数转化为与树结构直接相关的形式,在节点分裂时,预先
按照特征值大小进行特征排序,保存为block结构,迭代中
会重复使用这个结构,减小计算量;并采用类似分位点选
取的方式,仅选出常数个特征值作为其候选分割点,从候
193
第 39 卷 数字技术与应用
选分割点中选出最优的分割点,以实现预测准确、运算快
速的目标。
=60,learning_rate=0.1,max_depth=5,其余参数为默认
值。将所建立的离职预测模型与Logistic算法、朴素贝叶
斯、支持向量机分类、线性判别分析算法进行相应评价指
标的交叉验证实验对比,对比结果如表3所示。
分析对比实验结果,本文建立的XGBoost模型的预测
准确率为95.6%,F1值为92.8%,AUC值为93.6%,在三项
指标上,相较于其他四种算法模型,都具有最佳表现。员
工是否离职与其相对薪资水平、工作内容、满意度等特征
之间存在复杂的非线性关系,基于集成方法的XGBoost平
衡模型的复杂度与精确性,并基于贪心算法寻找最佳分
裂点,具有优越性。
2 实验测试及分析
本文选用准确率、F1值和AUC值三项分类算法评价
指标衡量模型的优劣性。是否离职分类结果混淆矩阵如
表1所示。准确率是指对于给定测试数据集,分类器正确
分类的样本数与总样本数之比;F1值是综合评价指标,F1
值越接近1,表明模型预测越准确。准确率和F1值是由混
淆矩阵计算得到。可利用混淆矩阵绘制出ROC曲线,AUC
值是由该曲线求得。AUC值越大,模型精度越高。准确率
和F1值的计算公式如公式(3)、(4)所示。
TP+TN
100%
(3)
TPTNFPFN
2PrecisionRecall
F1=100%
(4)
PrecisionRecall
Accuracy
3 基于SHAP的模型解释分析
SHAP以博弈论思想为基础,被广泛用于解释复杂算
法。核心是计算特征的归因值,每个特征计算的归因值
表3 模型性能对比结果
Tab.3 Model performance comparison results
本文所选取数据集包含的特征如表2所示,是否离职
作为标签。预处理后的样本总量为14999,特征总数为9。将
特征变量与目标变量输入模型,划分训练集与预测集数
据,建模训练预测。模型最优超参数组合为:n_estimators
表1 分类结果混淆矩阵
Tab.1 Confusion matrix of classification results
算法模型
Logistic
NBM
SVM
LDA
XGBoost
Accurac
0.798
0.791
0.786
0.787
0.956
F1-score
0.457
0.615
0.156
0.425
0.928
AUC
0.647
0.764
0.542
0.631
0.936
离职状态
实际离职
实际未离职
预测离职
TP
FP
预测未离职
FN
TN
表2 数据集特征属性
Tab.2 Data set characteristic attributes
特征属性名称
satisfaction_level
last_evaluation
number_project
average_montly_hours
time_spend_company
work_accident
promotion_last_5years
type
salary
left
特征含义
对公司的满意程度
上一次公司对员工的考核得分
同时负责项目的数量
平均每月工作时长
在公司工作的年数
是否有工作失误
近五年是否晋升
员工所在部门
相对薪资水平
是否离职
变量类型
数值型
数值型
数值型
数值型
数值型
数值型
数值型
数值型
数值型
数值型
194
王志宁:基于XGBoost的员工离职预测及特征分析模型
2021年第 3 期
图1 SHAP特征摘要图
Fig.1 SHAP feature summary diagram
表4 XGBoost,SHAP算法特征重要度对比
Tab.4 XGBoost, SHAP algorithm feature importance comparison
XGB Feature Importance
排名
feature
1
2
3
4
5
6
7
8
satisfaction_level(对公司的满意程度)
time_spend_company(在公司工作的年数)
last_evaluation(上一次公司对员工的考核得分)
number_project(同时负责项目的数量)
average_montly_hours(平均每月工作时长)
work_accident(是否有工作失误)
salary(相对薪资水平)
type(员工所在部门)
value
0.406
0.213
0.136
0.114
0.054
0.037
0.029
0.009
SHAP Feature Importance
feature
satisfaction_level(对公司的满意程度)
time_spend_company(在公司工作的年数)
number_project(同时负责项目的数量)
last_evaluation(上一次公司对员工的考核得分)
average_montly_hours(平均每月工作时长)
salary(相对薪资水平)
work_accident(是否有工作失误)
type(员工所在部门)
value
1.426
0.679
0.503
0.261
0.249
0.119
0.104
0.016
反映该特征影响模型预测值的程度。归因值是特征对预
测结果的作用力,正值表明该特征对模型预测有提升作
用,负值表示该特征对模型预测构成负向作用,模型的
预测值由模型预测的平均值与每个特征的作用力相加
而得。
如图1所示SHAP摘要图,根据每个特征对于员工是否
离职的影响程度重要性进行排序绘制,颜色表示特征的
具体数值,越接近红色,特征数值越大,越接近蓝色,数值
越小;图中每个点为一个样本。如表4所示XGBoost特征重
要度与SHAP特征重要度排序对比。
综合分析得出,对公司的满意程度、在公司工作的年
数、同时负责项目的数量、平均每月工作时长、相对薪资
水平是影响员工离职的关键因素。员工的满意程度、相对
薪资水平越高,离职的可能性越低,符合员工期望的工作
内容及状态,能够满足员工的认同感与获得感,并具有不
错的薪资收入水平,是员工在工作岗位上长久、稳定付出
的重要基础。工作年数较短如2至3年的员工,正处在发展
适应阶段,对于当前工作的感受尚未完全,离职的可能性
较低;员工在公司工作的年数越长,越趋于稳定,在公司
工作7年以上的员工已经成为公司中的重要一员,离职可
能性也较低。而工作年数在4至6年的员工,具有跳槽、寻
找新工作环境的潜在倾向,其离职的可能性较大。此外,
平均每月工作时长在300小时左右的员工,日常休息时间
多被工作所占用,离职的可能性较大。同时负责项目越多
的员工,对于工作的满意程度越低,员工的工作压力会受
到同时负责项目数量的影响,较多的项目带来的工作压
力较大,占用员工休息时间的可能性更大,员工的离职倾
向也越高。
195
第 39 卷 数字技术与应用
XGBoost算法建立离职预测模型,与Logistic、朴素贝
叶斯、支持向量机分类、线性判别分析算法进行相应
分类算法评价指标的实验对比,并结合SHAP模型
提高可解释性,分析影响员工离职决策的因素。下
一步工作可以考虑增加新特征,进一步提升预测模
型对于员工离职问题的应用意义。
参考文献
[1] 李欣.大数据时代下的员工离职倾向分析与预警[J].经
营管理者,2016(19).
[2] 谭毅恒.企业员工离职倾向的统计分析与预测:以Kaggle
平台数据为例[D].昆明:云南师范大学,2020.
图2 SHAP特征交互图
Fig.2 SHAP feature interactive diagram
[3] 李扬.国有企业员工幸福感对离职倾向的影响研究[J].
企业改革与管理,2020(20):53-54.
[4] Bamfo,Dogbe,e customer behaviour and front-
line employee turnover intentions in the bankingindustry:The
mediating role ofemployeesatisfaction[J].Cogent Business &
Management,2018,5(1):1522753.
[5] 徐毅.数据挖掘技术在人力资源管理中的应用研究[J].中国市
场,2017(32):173-174.
[6] 刘婷婷.分类器在员工离职预测中的应用[D].南宁:广西大学,
2018.
[7] 张紫君.企业员工的离职预测模型[D].重庆:重庆大学,2018.
[8] 李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].
重庆工商大学学报(自然科学版),2019,36(1):117-123.
SHAP模型不仅可以对样本特征总体分析,还可以显
示两个特征的交互作用关系对于目标变量的影响。如图2
所示satisfaction_level(对公司的满意程度)特征依赖图为基
础,number_project(同时负责项目的数量)的特征数值大
小着色表示的特征交互图。分析发现,同时负责项目越多
的员工,对于工作的满意程度越低,其离职的可能性较
大。员工的工作压力会受到同时负责项目数量的影响,较
多的项目带来的工作压力较大,占用员工休息时间的可
能性更大,员工的离职倾向也越高。
4 结语
人力资源策略管理数据化不断发展,员工离职预测问
题的研究愈发重要。本文基于员工分析数据集运用
Prediction and Feature Analysis Model of Employee
Resignation Based on XGBoost
WANG Zhi-ning
(Xinjiang University of Finance and Economics School of Statistics and Data Science, Urumqi Xinjiang 830001)
Abstract:As the value of human resource management data continues to be highlighted, the problem of employee turnover
prediction has become a new direction for human resource , take the employee analysis data set in the data science
competition platform Kaggle as the research object and preprocess it;Secondly, establish an XGBoost employee turnover prediction
model, analyze the effect of the model with evaluation indicators, and compare and analyze it with Logistic, Naive Bayes, and support
vector machine n the advantages of the XGBoost model in terms of accuracy, F1 value and AUC value;Finally, use
the SHAP method to analyze the important factors that affect the employee's decision to leave, and provide decision support for the
management and retention of the employee.
Key words:Machine learning;Resignation prediction;XGBoost;SHAP value
196
发布者:admin,转转请注明出处:http://www.yc00.com/news/1712953691a2154740.html
评论列表(0条)