大数据背景下互联网金融信贷风险预测研究

大数据背景下互联网金融信贷风险预测研究


2024年5月2日发(作者:)

网络商务

XDYX

2022.07

大数据背景下互联网金融信贷风险预测研究

(首都经济贸易大学

北京100026)

要:大数据、人工智能技术领域的快速发展应用,正在持续不断加速传统金融产业的变革发展。许多第三方金融信贷

机构均已经率先将大数据挖掘和数据分析技术,成功应用于信用与贷款违约风险评估预测。本文利用机器学习的Random-

Forest、XGBoost和LightGBM算法,建立个人信贷违约预测模型,并与常见的逻辑回归信用风险模型比较,从AUC、KS值等各

项指标数据可以看出相比逻辑回归,基于集成学习的模型效果在信贷违约预测场景具有更好的效果,且XGBoost相比Ran-

domForest、LightGBM在信贷违约预测场景具有更好性能。

关键词:数据挖掘;数字金融;信贷风险预测;集成学习

一、引言

随着移动互联网及大数据、人工智能产业浪潮的逐渐蓬

勃兴起,“数字经济”业务模式随之走向深入发展,金融行业

开始推进“数字化”业务转型,市场上已经不再是“一手交钱,

一手交货”的单一运营管理模式,银行、互联网金融、小额贷

款等企业开始利用大数据技术,为消费者提供个性化的信用

服务。然而,在消费者享受借贷所带来的便利的同时,这些

企业也承受着巨大的违约风险,借贷人如果不能按照协议偿

还债务,将会给这些金融机构带来严重的经济损失,风险管

理与控制依旧是金融行业需要解决的重大问题。在大数据

时代,互金平台自身已经拥有了海量级数据,将风险控制与

大数据结合,充分利用数据挖掘技术探索贷款人背后的信息

规律。机器学习理论是一门为了模拟出人的大脑学习的活

动,或是一种为了可以实现模拟人类大脑学习的活动过程,而

可以使用高性能计算机系统进行仿真研究活动的一种方法,

是当代人工智能主要的基础研究热点领域方向之一。为了

快速应对目前一些相对复杂领域的未来预测方法和风险评

价技术问题,基于机器学习原理的未来预测计算方法可利用

模拟人类脑的学习思考活动特性,在金融风险的投资行为预

测、股票市场价格预测、投标效果评价方法等多个相关领域

内被应用。从研究互联网金融平台行为的角度来看,机器学

习理论对于深度研究基于用户特性的贷款违约问题具有重

要学术意义。构建信贷风险评估模型,及时精准发现危险用

户,可以高效地对消费者进行信用评估,提高贷款违约预测

能力,有效控制违约损失。

目前国内外针对小额信贷风险的预测及模型建立的实

证研究,主要学者有廖绚等人首次用逻辑回归模型预测借款

人是否逾期还款,并对贷款违约发生的相关影响风险因素也

进行了预测分析研究;刘红生等人第一次利用逻辑回归预测

模型构建我国中小企业银行短期综合贷款利率风险的预测

分析模型;沈玉溪等人第一次用决策树方法对P2P对信贷数

据质量进行定量预测,分析结果指出借款人收入、借款归还

期限、信用等级均是未来影响借款人发生违约情况的三项主

134

现代营销中旬刊

要决定因素;李进利用随机森林建立绿色信贷风控模型,结

果表明该模型效果要好于逻辑回归,但面对大规模不平衡信

贷数据时,模型性能有待提升;胡绪华等人利用BP神经网络

可以解决非线性问题的特点,建立基于BP神经网络的商业

银行信贷风控模型。机器学习目前已经在整个风控领域得

到了广泛深入的商业应用,其中,logistic回归模型由于拥有

较高的算法可解释性常用在风控研究领域,但是因为该领域

算法学习能力十分有限,对特征处理方法的性能要求较高。

近年来,由于集成学习结合了各个单一模型各自的特点,具

有更好的准确性,成为风控建模的主流。本文旨在使用基于

集成学习理论的模型RandomForest、XGboost和LightGBM模

型进行金融信贷行为预测的建模,并将与传统预测的逻辑回

归法进行简单对比,探寻预测模型性能,以实现帮助中小企

业金融及借贷相关机构更有效避免各类潜在金融风险,更好

地持续进行合规管理运营。

二、模型理论基础

Bagging和Boosting都是集成算法,即将多个泛化能力较

弱的基学习器合成一个泛化能力强的强学习器。Bagging采

用并行的方法,从原始样本集中随机抽取训练集并进行模型

的训练建立基分类器,对于分类问题采用多数人投票决定的

方式,对于回归的问题则取其所有基分类器的平均值,代表

算法为随机森林。Boosting方法训练基分类器时采用串行的

方式,各个基分类器之间有依赖。它的基本思路是将基分类

器层层叠加,每一层在训练的时候,对前一层基分类器分错

的样本,给予更高的权重。在测试时,根据各层分类器的结

果的加权得到最终结果。其代表算法为AdaBoost、GBDT、

XGBoost。梯度提升函数中的另外一种Boosting方式也是指

通过计算使用代价函对上下一轮训练计算出的模型函数f的

偏导率系数来计算拟合函数的残差。梯度提升决策树,其核

心思想是通过采用加法模型(即基函数的线性组合),以及不

断减小训练过程产生的残差来达到将数据分类或者回归的

算法,这个残差量是每一个数加到其预测结果值上后所能获

得到的真实结果值之间的一个累加后的量。本文使用Bag-

ging和Boosting族算法中的RandomForest、XGBoost、Light-

GBM三种集成算法建立信贷违约预测模型,并尝试模型融合

对比模型效果,对比传统的信贷违约预测模型。下面对几种

机器学习分类算法各自的功能特点分别进行简单介绍。

随机森林(RandomForest)算法是一种以决策树模型为核

心实现的一种集成算法,通过将随机组合成多棵树,并根据

随机取投票结果或随机取均值结果树的计算的方式从而最

终得到可预测的树模型,它比随机单棵树具有相对更高的算

法准确率和相对更强的系统稳定性。随机森林相比决策树

拥有着更为出色且稳定持续的算法性能,主要取决于其抽取

样本的随机性及对多棵树的高度集成,样本选择的随机性能

够让它具有相对更稳定的抗过拟合能力,多棵树的集成能够

让到它具有更高的准确率。随机森林本质上来讲是一种高

度集成性的树算法,由数目众多的树基分类器等数据结构组

成。其中组成一棵随机森林树算法的基分类器都是一个随

机CART树,单棵随机森林决策树可独立生成树算法也可以

实现完全独立的树分裂,既可以解决分类问题又可以解决回

归问题。行抽样方法和列抽样算法之间交叉引入可以保证

让随机森林模型同时具有高抗过拟合的能力和高维抗噪声

能力。但是对低维数据集分类随机森林算法不一定可以得

到一个很好的效果,其计算速度远远比单个的随机决策树还

要慢,如果我们仅仅需要推断一些超出计算范围内的独立变

量或其他非独立的变量,随机森林做得也许并不好。

XGBoost以GBDT为参照,在常规的分布式梯度提升算

法上进行了一系列优化。XGBoost算法采用集成学习方式,

在其成本函数中采用了泰勒公式的两阶展开,引入正则化

项,通过参数调整优化,可以有效地避免欠拟合与过拟合。

它在GBDT的基础上,使用正则化项的限制,降低过拟合的可

能;在对计算目标函数方差时,XGBoost引入二阶泰勒展开

式,GBDT只用了一阶导数信息,XGboost支持自定义损失函

数;在基分类的选择上,XGBoost不仅支持树模型,还支持线

性模型,此时XGBoost相当于带正则项的线性回归模型;并行

化是XGBoost的特色之一,它预先将每个特征按照特征值进

行排序,并将其存储为块结构,分裂节点时采用多线程并行

的方式查找每个特征值的最佳分割点,极大地提高了训练速

度。XGBoost的基本算法思想就是不断地增加树,从最开始

先建立一棵CART分类回归树并逐渐迭代,在每次迭代的过

程中都增加一棵树,每增加一棵树本质上就是学习一个新的

函数去拟合上一次预测的残差,最后将得到的树进行集成,

形成一个由众多CART数所集成的高效高性能的强评估器。

当我们预测到第K棵树时,要预测一个样本的分数,其实就

是将该样本的特征在每棵树上对应的节点分数相加所得到

的该样本的预测值。

LightGBM(LightGradientBoostingMachine)是针对GBDT

在数据量较大或者特征数量较高时,存在的难以避免的拓展

性和效率问题提出的。而LightGBM主要从以下几个方面进

行了优化:基于直方图的决策树算法,通过把连续型数值特

XDY

2022.07

X

网络商务

征进行离散化,使用“分箱”的思想将变量原来的取值范围均

化为若干个区间,将分箱后每个区间的值作为直方图中的累

计统计量表示出来,遍历数据后,根据离散化后的值,找到最

优的分割点。这种算法可以有效减小内存占用和计算代价。

同时,还使用了直方图做差加速,在计算每个叶子的直方图

时,直接使用其父节点的直方图减去其同级的直方图得到,

可以提高加倍计算速度;单边梯度采样技术(Gradient-based

One-SideSampling,GOSS)使用GOSS保留具有大梯度的且更

直接影响信息增益的数据样本,相比XGBoost的全量遍历,减

轻了空间消耗和时间使用;互斥特征捆绑(ExclusiveFeature

Bundling,EFB)通过对一些特征间很少同时非零的互斥特征

进行强制结合,来减少特征数量,达到降维的目的,通过牺牲

少量准确率来加速训练过程,达到了和GBDT近乎相同的精

度;带深度限制的Leaf-wise的叶子生长策略,在GBDT原来

的使用level-wise的产生决策树方法上提出每次仅在左侧叶

子结点进行分裂,区分对待各层叶子,快速找到分裂时信息

增益最大的叶子,使得当相同分裂次数条件下,最大限度降

低误差,提高精度。

三、实证分析

在信贷领域的风险主要分为两种,其中一种是信用风

险,另一种是欺诈风险。信用风险指借款人原本不打算违

约,但在借款后因为某些主观和客观的原因没有能力偿还贷

款的现象;而欺诈风险指的是借款人蓄意为之,在申请贷款

前就不打算还。随着大数据和人工智能的发展,商业银行等

可以依靠金融科技主动收集各类金融数据,从而为不同的用

户群体提供更精确的服务。通常,收集到的借款人信息是高

维且稀疏的,产生违约风险的各因素之间的关系也错综复

杂,且违约用户的数量远少于正常用户,即数据往往是不平

衡的,这使得准确预测违约风险十分困难。为有效识别出有

违约风险的用户,本文研究基于机器学习的信贷违约风险预

测模型的性能,使用天池的贷款违约预测数据进行研究。样

本量共有80万条,45个特征,包括贷款等级、就业年限(年)、

贷款期限(年)、就业职称、年收入、借款人在贷款申请时的贷

款用途类别、贷款的初始列表状态、贬损公共记录的数量、借

贷人的贷款总额占授信总额的比率、过去两年逾期30至59

天的次数、过去两年逾期超过90天的次数、借贷人的年龄、

过去两年内出现35至59天逾期但是没有发展得更坏的次

数、过去两年内出现60至89天逾期但是没有发展得更坏的

次数,过去两年内出现90天逾期的次数等,其中定性变量有

5个,定量变量40个。选择“isDefault(是否违约)”为因变量,

取值1表示借款人违约,0表示借款人未违约。违约样本有

159610个,未违约样本有640390个,存在样本不平衡现象。

(一)数据预处理

本文对数据进行重复值、缺失值、异常值等方面的数据

预处理。该数据集中,共有2条重复样本,直接对其进行删除

处理。金融行业不同于其他相关领域,客户数据存在可能故

意被隐瞒或者有意谎报信息的特定情况,因此我们更需要积

现代营销中旬刊

135

网络商务

XDY

2022.07

X

极配合其他业务场景,对客户缺失值数据和业务异常数据值

信息进行甄别处理。对于定性变量,由于缺失值较少,直接

用众数进行填充;对于定量变量,观察其分布,根据其分布进

行中位数或均值进行填充,如果数据分布为偏态分布,用中

位数进行填充,若分布近似正态分布,用平均数进行填充。

对于异常值,常用的异常值检测方法有箱线图、三倍标准差

方法等,对于异常值的处理,本文将大于90%的值用中位数

替换。其中关于逾期次数的指标:例如“过去两年内出现35

至59天逾期但是没有发展得更坏的次数”“过去两年内出现

60至89天逾期但是没有发展得更坏的次数”“过去两年内出

现90天逾期的次数”等,这几个指标在出现99%以上次数分

布的平均值是2,而最大值却是98,显然是符合实际的,通过

计算这三个指标大于90的记录共225条,且标签并非都为1,

故视为异常值,可做删除处理。

(二)模型建立

当数据预处理完成后,在进行模型训练之前需要进行特

征选择,选择有意义的特征输入机器学习的算法进行训练。

特征选择的方法通常分为三种:过滤法(Filter)、包裹法

Wrapper)和嵌入法(Embedded)。过滤式特征选择按照发散

性或者相关性对各个特征进行评分,设定阈值或者待选择阈

值的个数来选择特征,如果一个特征不发散,例如方差接近

于0,那么样本在这个特征上基本上没有差异,说明这个特征

对于样本的区分作用不大。另一方面,考察特征与目标的相

关性,与目标相关性高的特征,应当优先选择。包裹法特征

选择法依赖于目标函数(通常是预测效果评分),每次选择若

干特征,或者排除若干特征,包裹式特征选择算法与分类器

结合,直接把最终将要使用的分类器作为特征子集评价准

则,这种方法选择的特征相比过滤法更为准确,但需要不断

训练以找到最优特征组合,计算代价相对更大。嵌入法特征

选择先使用某些机器学习的算法和模型进行训练,得到各个

特征的权值系数,根据系数从大到小选择特征,类似于过滤

式特征选择法,但是它通过模型训练来确定特征的优劣。基

于此,本文首先使用过滤法,对定性变量进行卡方过滤,对定

量变量进行方差过滤。其次利用相关系数和VIF方差扩大因

子共同剔除一部分变量,再筛选掉Ⅳ值小于0.01的变量,最

后纳入模型的有16个。选择75%的数据集作为训练集,剩余

样本用作测试集。在训练集的600000条借款人历史数据

中,违约样本有119628条,占样本总量的6.684%,贷款违约

率为19.938%,未违约样本480372条,占样本总量的

80.062%。可以看出该数据集是一个不平衡的数据集。

本文研究问题贷款是否违约为二分类问题,分别用逻辑

回归、随机森林、XGBoost、LightGBM建立模型并进行参数调

优,用AUC、KS值进行模型评估。由建模结果可以看出,三

个集成学习模型(RandomForest、XGBoost、LightGBM)比逻辑

回归的AUC值和KS值都大,可见集成学习在风控领域也有

良好的应用效果,三种集成模型对比来看,XGBoost效果最

好,AUC和KS值最大,分别为0.721、0.322。

136

现代营销中旬刊

表1模型评估结果

分类器准确率AUC值KS值

LR0.800.6450.206

RF0.800.6990.289

XGBoost0.800.7210.322

LightGBM0.800.7190.319

四个模型进行对比,XGBoost的AUC值和KS值最大,模

型性能更好,通过sklearn的xgboost的plot_importance方法,

得到每个特征变量的重要性程度,对于违约预测的重要性程

度排在前面四位的分别是“借贷人的贷款总额占授信总额的

比率”“过去两年逾期30至59天的次数”“过去两年逾期超

过90天的次数”“借贷人的年龄”等。这四个特征对最终是

否违约影响较大,因此在处理贷款申请时,可以重点对借贷

人的这些特征进行关注。

四、研究结论与政策建议

互联网金融的发展加快了资金流动,但同时也伴随着信

贷违约事件的频繁发生,准确预测违约风险用户是亟待解决

的问题。机器学习越来越多地应用在风控领域,同时面临着

有用信息筛选和各种数据挖掘算法模型的选择。信贷违约

预测问题是二分类问题,本文首先利用常用的特征选择方法

对特征进行过滤,利用方差过滤法、卡方过滤法、相关系数、

VIF、IV值等值筛选出15个重要变量,然后利用基于机器学

习的RandomForest、XGBoost和LightGBM算法建立个人信贷

违约预测模型,并与常见的逻辑回归信用风险模型比较,从

AUC、KS值等各项指标数据可以看出相比逻辑回归,基于集

成学习的模型效果在信贷违约预测场景具有更好的效果,且

XGBoost相比RandomForest、LightGBM在信贷违约预测场景

具有更好性能。本文实证研究可有助于传统金融机构管理

者更加科学、精确、快速地正确识别传统信贷客户业务的各

种风险特征,帮助互联网信贷机构有效建设在金融信贷业务

监管中应有的评级指标体系,完善对互联网金融机构产品的

信用审批体系,优化信用额度及分配监管流程。

参考文献:

[1]廖绚,李兴绪.基于Logit模型的银行个人信贷风险管

理评估[J].统计与决策,2008,(21):50-52.

[2]刘红生,李帮义,代秀梅.中小企业短期贷款违约风险

预测模型实证研究[J].统计与决策,2014,(04):176-178.

[3]沈玉溪,徐浩.P2P网贷借款人违约风险评估——基于

决策树的研究[J].经营与管理,2018,(09):13-15.

[4]李进.基于随机森林算法的绿色信贷信用风险评估研

究[J].金融理论与实践,2015,(11):14-18.

[5]胡绪华,吉敏.基于BP神经网络的银行信贷风险评价

[J].统计与决策,2009,(11):138-139.

作者简介:

李鑫(1998—),女,湖北省襄阳市人,研究方向:数据

挖掘。


发布者:admin,转转请注明出处:http://www.yc00.com/news/1714643101a2486720.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信