基于XGBoost的员工离职预测及特征分析模型

基于XGBoost的员工离职预测及特征分析模型


2024年4月13日发(作者:)

第39卷 第3期

2021年 3月

数字技术与应用

Digital Technology &Application

Vol.39 No.3

March 2021

2021年第 3 期

学术论坛

DOI:10.19695/12-1369.2021.03.62

基于XGBoost的员工离职预测及特征分析模型

王志宁

(新疆财经大学统计与数据科学学院,新疆乌鲁木齐 830001)

摘要:随着人力资源管理数据化的价值不断凸显,员工离职预测问题成为人力资源管理的新方向。首先,以数据科学竞赛

平台Kaggle中的员工分析数据集为研究对象,进行预处理;其次,建立XGBoost员工离职预测模型,结合评价指标分析模型效果,

并与Logistic、朴素贝叶斯、支持向量机算法进行对比分析,证明XGBoost模型在准确率(Accuracy)、F1值和AUC值三项指标

上的优势;最后,运用SHAP方法分析影响员工离职决策的重要因素,为员工的管理及留任提供决策支持。

关键词:机器学习;离职预测;XGBoost算法;SHAP

中图分类号:TP18文献标识码:A文章编号:1007-9416(2021)03-0193-04

0 引言

当今就业环境、人力资源管理策略在科学技术发展的

影响下呈现出新特点:一方面,重要人才成为影响企业核

心竞争力、质量效益的关键;另一方面,员工离职的影响

也在加剧,关键性人才的主动离职会对公司的运营造成

损失,也增加了重新招聘及新员工培训的成本。而随着数

据挖掘技术的发展,人力资源策略数据化的价值不断放

大。基于员工情况、薪资等各项指标数据建立机器学习算

法模型,预测员工的离职倾向逐渐成为人力资源管理的

新方向。员工离职预测能协助管理者提前介入员工的离

[1]

析员工离职决策的成因。

1 模型方法

离职预测是二分类问题,设员工数据集为X,包含员

工的工作满意程度、相对薪资等特征,Y为目标变量,即员

工是否离职。基于XGBoost算法构建员工离职预测模型,

XGBoost是梯度提升决策树的改进算法,其完整的目标函

数如公式(1)所示,由损失函数和正则化惩罚项相加而成,

正则化项用以控制模型的复杂度。其中

y

i

为样本真实值,

为预测值,

f

t

为每一轮迭代所建立的树模型,最优化目

标函数即求解出树结构。集成的基本思想是在每一轮迭

代过程中,增加一棵决策树,使模型的效果能够提升,过

程如公式(2)所示。为第

t

轮迭代模型的预测值,

模型。

(1)

t1

轮的模型预测,

f

t

(

x

i

)

表示第

t

轮迭代新加入的树

职意向,调整管理策略,为保留人才赢得时机,也扩大为

员工留任提供解决方案的空间。

员工离职是人力资源领域的核心问题,有不少学者针

对员工离职问题进行研究

[5]

[2-4]

。而人力资源管理策略数据

化的不断发展,针对员工离职问题的预测研究也颇受关

注,刘婷婷运用C4.5决策树算法选取IBM分析平台样例

数据,建模预测员工是否离职

[6]

。张紫君基于GBDT算法研

究员工离职的预测问题,并根据特征重要性总结员工离

职的影响因素

[7]

。李强等人结合Adaboost和Random Forest

算法构建员工离职预测模型,取得了高于单一算法模型

的预测准确性

[8]

为进一步提高离职预测模型的性能及可解释性。本文

基于数据科学竞赛平台Kaggle中的员工分析数据集,运用

XGBoost算法构建员工离职预测模型,与机器学习主流算

法进行相应模型评价指标的实验对比,验证XGBoost模型

的效果,并结合SHAP方法提升预测模型的可解释性,分

收稿日期:2021-02-02

作者简介:王志宁(1994—),男,山西临汾人,硕士研究生,研究方向:机器学习。

(2)

XGBoost利用二阶泰勒级数近似目标函数,将目标函

数转化为与树结构直接相关的形式,在节点分裂时,预先

按照特征值大小进行特征排序,保存为block结构,迭代中

会重复使用这个结构,减小计算量;并采用类似分位点选

取的方式,仅选出常数个特征值作为其候选分割点,从候

193

第 39 卷 数字技术与应用

选分割点中选出最优的分割点,以实现预测准确、运算快

速的目标。

=60,learning_rate=0.1,max_depth=5,其余参数为默认

值。将所建立的离职预测模型与Logistic算法、朴素贝叶

斯、支持向量机分类、线性判别分析算法进行相应评价指

标的交叉验证实验对比,对比结果如表3所示。

分析对比实验结果,本文建立的XGBoost模型的预测

准确率为95.6%,F1值为92.8%,AUC值为93.6%,在三项

指标上,相较于其他四种算法模型,都具有最佳表现。员

工是否离职与其相对薪资水平、工作内容、满意度等特征

之间存在复杂的非线性关系,基于集成方法的XGBoost平

衡模型的复杂度与精确性,并基于贪心算法寻找最佳分

裂点,具有优越性。

2 实验测试及分析

本文选用准确率、F1值和AUC值三项分类算法评价

指标衡量模型的优劣性。是否离职分类结果混淆矩阵如

表1所示。准确率是指对于给定测试数据集,分类器正确

分类的样本数与总样本数之比;F1值是综合评价指标,F1

值越接近1,表明模型预测越准确。准确率和F1值是由混

淆矩阵计算得到。可利用混淆矩阵绘制出ROC曲线,AUC

值是由该曲线求得。AUC值越大,模型精度越高。准确率

和F1值的计算公式如公式(3)、(4)所示。

TP+TN

100%

(3)

TPTNFPFN

2PrecisionRecall

F1=100%

(4)

PrecisionRecall

Accuracy

3 基于SHAP的模型解释分析

SHAP以博弈论思想为基础,被广泛用于解释复杂算

法。核心是计算特征的归因值,每个特征计算的归因值

表3 模型性能对比结果

Tab.3 Model performance comparison results

本文所选取数据集包含的特征如表2所示,是否离职

作为标签。预处理后的样本总量为14999,特征总数为9。将

特征变量与目标变量输入模型,划分训练集与预测集数

据,建模训练预测。模型最优超参数组合为:n_estimators

表1 分类结果混淆矩阵

Tab.1 Confusion matrix of classification results

算法模型

Logistic

NBM

SVM

LDA

XGBoost

Accurac

0.798

0.791

0.786

0.787

0.956

F1-score

0.457

0.615

0.156

0.425

0.928

AUC

0.647

0.764

0.542

0.631

0.936

离职状态

实际离职

实际未离职

预测离职

TP

FP

预测未离职

FN

TN

表2 数据集特征属性

Tab.2 Data set characteristic attributes

特征属性名称

satisfaction_level

last_evaluation

number_project

average_montly_hours

time_spend_company

work_accident

promotion_last_5years

type

salary

left

特征含义

对公司的满意程度

上一次公司对员工的考核得分

同时负责项目的数量

平均每月工作时长

在公司工作的年数

是否有工作失误

近五年是否晋升

员工所在部门

相对薪资水平

是否离职

变量类型

数值型

数值型

数值型

数值型

数值型

数值型

数值型

数值型

数值型

数值型

194

王志宁:基于XGBoost的员工离职预测及特征分析模型

2021年第 3 期

图1 SHAP特征摘要图

Fig.1 SHAP feature summary diagram

表4 XGBoost,SHAP算法特征重要度对比

Tab.4 XGBoost, SHAP algorithm feature importance comparison

XGB Feature Importance

排名

feature

1

2

3

4

5

6

7

8

satisfaction_level(对公司的满意程度)

time_spend_company(在公司工作的年数)

last_evaluation(上一次公司对员工的考核得分)

number_project(同时负责项目的数量)

average_montly_hours(平均每月工作时长)

work_accident(是否有工作失误)

salary(相对薪资水平)

type(员工所在部门)

value

0.406

0.213

0.136

0.114

0.054

0.037

0.029

0.009

SHAP Feature Importance

feature

satisfaction_level(对公司的满意程度)

time_spend_company(在公司工作的年数)

number_project(同时负责项目的数量)

last_evaluation(上一次公司对员工的考核得分)

average_montly_hours(平均每月工作时长)

salary(相对薪资水平)

work_accident(是否有工作失误)

type(员工所在部门)

value

1.426

0.679

0.503

0.261

0.249

0.119

0.104

0.016

反映该特征影响模型预测值的程度。归因值是特征对预

测结果的作用力,正值表明该特征对模型预测有提升作

用,负值表示该特征对模型预测构成负向作用,模型的

预测值由模型预测的平均值与每个特征的作用力相加

而得。

如图1所示SHAP摘要图,根据每个特征对于员工是否

离职的影响程度重要性进行排序绘制,颜色表示特征的

具体数值,越接近红色,特征数值越大,越接近蓝色,数值

越小;图中每个点为一个样本。如表4所示XGBoost特征重

要度与SHAP特征重要度排序对比。

综合分析得出,对公司的满意程度、在公司工作的年

数、同时负责项目的数量、平均每月工作时长、相对薪资

水平是影响员工离职的关键因素。员工的满意程度、相对

薪资水平越高,离职的可能性越低,符合员工期望的工作

内容及状态,能够满足员工的认同感与获得感,并具有不

错的薪资收入水平,是员工在工作岗位上长久、稳定付出

的重要基础。工作年数较短如2至3年的员工,正处在发展

适应阶段,对于当前工作的感受尚未完全,离职的可能性

较低;员工在公司工作的年数越长,越趋于稳定,在公司

工作7年以上的员工已经成为公司中的重要一员,离职可

能性也较低。而工作年数在4至6年的员工,具有跳槽、寻

找新工作环境的潜在倾向,其离职的可能性较大。此外,

平均每月工作时长在300小时左右的员工,日常休息时间

多被工作所占用,离职的可能性较大。同时负责项目越多

的员工,对于工作的满意程度越低,员工的工作压力会受

到同时负责项目数量的影响,较多的项目带来的工作压

力较大,占用员工休息时间的可能性更大,员工的离职倾

向也越高。

195

第 39 卷 数字技术与应用

XGBoost算法建立离职预测模型,与Logistic、朴素贝

叶斯、支持向量机分类、线性判别分析算法进行相应

分类算法评价指标的实验对比,并结合SHAP模型

提高可解释性,分析影响员工离职决策的因素。下

一步工作可以考虑增加新特征,进一步提升预测模

型对于员工离职问题的应用意义。

参考文献

[1] 李欣.大数据时代下的员工离职倾向分析与预警[J].经

营管理者,2016(19).

[2] 谭毅恒.企业员工离职倾向的统计分析与预测:以Kaggle

平台数据为例[D].昆明:云南师范大学,2020.

图2 SHAP特征交互图

Fig.2 SHAP feature interactive diagram

[3] 李扬.国有企业员工幸福感对离职倾向的影响研究[J].

企业改革与管理,2020(20):53-54.

[4] Bamfo,Dogbe,e customer behaviour and front-

line employee turnover intentions in the bankingindustry:The

mediating role ofemployeesatisfaction[J].Cogent Business &

Management,2018,5(1):1522753.

[5] 徐毅.数据挖掘技术在人力资源管理中的应用研究[J].中国市

场,2017(32):173-174.

[6] 刘婷婷.分类器在员工离职预测中的应用[D].南宁:广西大学,

2018.

[7] 张紫君.企业员工的离职预测模型[D].重庆:重庆大学,2018.

[8] 李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].

重庆工商大学学报(自然科学版),2019,36(1):117-123.

SHAP模型不仅可以对样本特征总体分析,还可以显

示两个特征的交互作用关系对于目标变量的影响。如图2

所示satisfaction_level(对公司的满意程度)特征依赖图为基

础,number_project(同时负责项目的数量)的特征数值大

小着色表示的特征交互图。分析发现,同时负责项目越多

的员工,对于工作的满意程度越低,其离职的可能性较

大。员工的工作压力会受到同时负责项目数量的影响,较

多的项目带来的工作压力较大,占用员工休息时间的可

能性更大,员工的离职倾向也越高。

4 结语

人力资源策略管理数据化不断发展,员工离职预测问

题的研究愈发重要。本文基于员工分析数据集运用

Prediction and Feature Analysis Model of Employee

Resignation Based on XGBoost

WANG Zhi-ning

(Xinjiang University of Finance and Economics School of Statistics and Data Science, Urumqi Xinjiang 830001)

Abstract:As the value of human resource management data continues to be highlighted, the problem of employee turnover

prediction has become a new direction for human resource , take the employee analysis data set in the data science

competition platform Kaggle as the research object and preprocess it;Secondly, establish an XGBoost employee turnover prediction

model, analyze the effect of the model with evaluation indicators, and compare and analyze it with Logistic, Naive Bayes, and support

vector machine n the advantages of the XGBoost model in terms of accuracy, F1 value and AUC value;Finally, use

the SHAP method to analyze the important factors that affect the employee's decision to leave, and provide decision support for the

management and retention of the employee.

Key words:Machine learning;Resignation prediction;XGBoost;SHAP value

196


发布者:admin,转转请注明出处:http://www.yc00.com/news/1712953691a2154740.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信