2024年4月12日发(作者:)
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
()
10059679202101001207
文章编号:
基于
Stackin
g
模型融合的用户购买行为预测研究
张建彬
霍佳震
(同济大学经济与管理学院,上海
2
)
00092
摘
要:如何利用大量的销售数据精准预测顾客未来需求,成为企业制定
在大数据时代背景下,
客户管理和库存管理决策的一个重要问题。目前关于用户购买行为预测的研究中很少能够预测用
户具体的购买时间。基于已有的销售数据,提出了基于机器学习和
Stackin
g
集成的综合预测模型
即未来是否购买及其购买时间。将模型应用在一家大型连锁零售企业的需预测用户的购买行为,
求预测中,并对方法的有效性进行评估。结果表明,基于
Stackin
g
集成的融合模型对预测用户未
准确率达
8
来是否购买具有最佳性能,
5%
,
AUC
值达到
0.928
;
LihtGBM
集成算法在预测用户购
g
买时间时具有最优性能,相比于融合模型提升了
5.
融合模型
+L5%
的预测性能;
ihtGBM
算法的
g
组合相比于均使用融合模型提升了
9.4%
的预测性能。
关键词:机器学习;购买行为预测;
LihtGBM
算法;
Stackin
组合预测;
gg
集成
中图分类号:
74
文献标志码:
F2
A
StackinusionModelforCustomerPurchaseBehaviorPrediction
g
F
犣犎犃犖犌犑犻犪狀犫犻狀
犎犝犗犑犻犪狕犺犲狀
(,,)
SchoolofEconomicsandManaementToniUniversitShanhai200092
,
China
ggjyg
:,
AbstractIntheeraofthebiatahowtousealareamountofsalesdatatoaccuratelredictcustomers
g
d
gyp
'futuredemandisanimortantissueforcomaniestomakecustomermanaementandinventoranae
ppgy
m
g
,
mentdecisions.Currentlfewstudiesonthe
p
redictionofconsumers
p
urchasebehaviorcan
p
redictthe
y
,
this
p
aer
p
roosesacomrehensive
p
redictionsecific
p
urchasetime.Basedontheexistinalesdata
ppp
pg
s
modelbasedontheinterationofmachinelearninndStackinto
p
redictfuture
p
urchasebehaviorofcon
gg
a
g
sumers.Wealiedthemodeltothedemandforecastofalareretailchainandevaluatedtheeffectiveness
ppg
ofthemethod.TheresultsshowthatthefusionmodelbasedonStackinasthebesterformancefor
p
re
g
h
p
,
dictinhetherconsumerswill
p
urchaseinthefutureandtheaccuracateis85%
,
theAUCvalueis0.
g
w
y
r
928
;
theLihtGBMinteratedalorithmhasthebest
p
erformancein
p
redictinheconsumer
p
urchase
gggg
t
,;
timewhichimrovesthe
p
rediction
p
erformanceb5%comaredwiththefusionmodelthecombina
py
5.
p
tionofthefusionmodel+LihtGBMalorithmimrovesthe
p
rediction
p
erformanceb4%comared
ggpy
9.
p
withthatalinhefusionmodelsin
p
redictinothwhethertobundwhentobu.
ppyg
t
g
b
y
a
y
:;
m
;
KeordscombinationforecastachinelearninLihtGBMalorithm
;
urchasebehavior
p
rediction
;
gggp
y
w
Stackininteration
gg
要求企业对投资支出的成
在企业客户管理中,
本和收益进行评估,并在一段时间内为营销和销售
收稿日期:
20201214
基金项目:国家自然科学基金项目()
71771179
,
71532015
了解顾客在未来活动确定最优的资源配置。因此,
一段时间内的购买行为是销售和市场部门有效分配
作者简介:张建彬(,男,安徽黄山人,硕士,研究方向:需求预测,:
1994
—)
Emailzb941121
@
163.com
。
j
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
资源的关键驱动力之一(,
LAllenbeone&Jen
,
y
)。同时,这些信息在制定仓库(或销售点)的库
1999
以及制造商制定生产计划时也至关重要。存计划,
目前预测用户购买行为的研究主要集中在预测
,,,用户是否购买(
Martínezetal.2018
;
Liuetal.
),很少研究用户具体的购买时间。本文提出一
2019
种使用
Stackin
g
方法融合多种决策树模型的组合
预测模型来预测用户未来是否购买和其具体的购买
时间。该模型采用
Stackin
g
模型融合的思想将
、随机森林三种不同的集成决
LihtGBM
、
XGBoost
g
一段时间内用户是否会购买的基础上,进一步预测
会购买用户的具体购买时间。
可用于购买行为预测的方法有许多,具体包括
时间序列分析、面板数据模型、基于机器学习的模型
例如
B
/
N
。时间序列分析和随机模型(
GBD
模型)
包括诸多不同的方法,例如指数平滑法(
Hussainet
,,、移动平均法(
al.2012
;
Trataretal.2016
)
Lee
,、自回归集成移动平均(
andFambro1999
)
ARI
模型(,,
MA
)
Ramosetal.2015
;
Aminietal.2016
)
等。对于这些方法的研究较为成熟,但是这些方法
策树模型的预测结果进行融合,然后基于融合的预
测结果使用简单的逻辑回归分类模型和线性回归模
型分别预测用户未来是否购买和具体的购买时间。
此外,在本研究中,我们使用真实的零售企业销售数
据对所提出方法的预测性能进行了评估。
文献综述
用户购买行为预测在很早的时候便引起学者们
的关注(
Herniter
,
1973
),但是由于过去历史数据的
缺乏导致这方面的研究长期停滞不前。用户购买行
为预测中最具挑战的问题是当用户的当前状态无法
直接观察,同时可用的历史记录非常少的情况下,对
用户购买行为的预测(
Platzeretal.2016
)。在过去
的几年中,信息技术的飞跃发展使得用户交易数据
的可用性极大增加(
Wuetal.
,
2013
)。这些用户交
易数据的初始分析通常以汇总统计的形式进行,例
如平均订单数量或订单平均订购量,以及与用户行
为有关的信息特征等。
在数据可用性极大增加的情况下,机器学习和
数据挖掘技术经常被用于基于用户的预测中,而用
户流失预测是该领域中的重要问题之一。近年来,
用户流失的概念和相关的预测分析已得到了很好的
研究(
Richteretal.
,
2010
;
Linetal.
,
2011
;
Amin
tal.
,
2017
)。准确地预测用户购买行为能够为企
业制定库存和销售计划提供依据,从而减少销售损
失和不必要的库存成本。因此,近年来有不少研究
关注于预测用户的未来购买行为。
Martínez
等
(
2018
)提出了一个动态的、数据驱动的框架,用于预
测非合同环境下用户是否打算在不久的将来在公司
内进行购买。
Liu
等(
2019
)根据给定的用户购买历
史记录,通过非参数贝叶斯模型预测用户的下一次
购买。
上述对未来用户购买行为预测的研究中,仅关
注于未来一段时间内用户是否会购买,而并没有预
测用户具体的购买时间。因此,本文将在预测未来
没有纳入足够的因素,或者没有考虑到个人的影响。
面板数据(
Renetal.
,
2014
)和随机数据模型(
Fader
&Hardie
,
2002
)比时间序列分析包含更多的因素,
目前已成功应用在各种与预测有关的业务场景中。
另一方面,基于机器学习的模型则可以考虑更多的
因素,可考虑更多的变量(
Choietal.
,
2014
)。
随着数据可获得性的提高,越来越多研究基于
机器学习的预测模型来预测用户的未来购买行为。
这些基于机器学习的预测方法主要包括逻辑回归
(
Martínezetal.
,
2018
)、支持向量机(
Luetal.
,
2014
;
Candelieri
,
2017
)、人工神经网络(
Güna
y
,
2016
;
Chawlaetal.
,
2019
)、梯度提升决策树(
GB
DT
)(
Martínezetal.
,
2018
)等。
Lu
等(
2014
)基于
特征变量选择,采用支持向量机回归的方法构建了
针对计算机产品的混合预测模型,结果表明对于计
算机这类具有高度可替代性的产品,该预测模型具
有良好的预测性能,能够为销售管理提供更多有用
的信息。另外,
Martínez
等(
2018
)提出了一个动态
的、数据驱动的框架,比较了逻辑回归、神经网络、梯
度提升决策树(
GBDT
)三种机器学习算法的预测性
能,结果表明梯度提升决策树具有最佳的预测性能。
这些研究大多使用单一的预测模型,通过将多种不
同的单一模型进行比较,从而发现表现性能较好的
一种或几种预测方法。
采用单一的预测模型虽然研究方法相对成熟,
但容易受到其他一些随机因素的影响,导致预测准
确率不太高,且模型一般仅适用于特定环境,泛化能
力不够强。因此,为了有效减少或者抵消单个模型
中的随机因素的影响、提高预测模型的预测精度和
可信度,一些学者使用不同的组合模型来解决预测
问题(汪同三与张涛,
2008
)。倪冬梅等(
2013
)基于
对需求影响因素分析建立了基于
ARIMA
的时间序
列和多元回归相结合的综合需求预测模型,并将该
综合预测模型与库存决策相结合,构建了需求预测
与库存决策集成模型。结果表明,综合预测模型的
1
e
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
预测精度高于单阶段模型;需求预测与库存决策集
成模型的成本远低于非集成模型。
F
利
an
等(
2017
)
采用用汽车行业历史销售数据和在线评论数据,
Bass
模型和情感分析相结合的方法对汽车需求进
相比于标准的
B
行预测。结果表明,
ass
模型和其他
销售预测模型,组合模型具有更高的预测精度。
由以上研究可以发现,在大多数情况下组合预
测模型相比于单一的预测模型具有更好的预测性
本文在上述研究的基础上,将前沿机器学能。因此,
习技术
X
随机森林
GBoost
算法、
LihtGBM
算法、
g
与用户是否购买预测的步骤类似,即先进行数据收集
和处理,接着进行特征选择和特征构建,然后使用
最后对训练得到的
Stackin
g
回归融合模型进行训练,
得到预测结果
2
,即回归融合模型进行样本外预测,
预测得到未来一段时间内所有用户的购买时间。
本文的最终目标是预测得到下一段时间内会购
买目标商品用户的具体购买时间。因此,将预测结
得到最终的预测结果,果
1
和预测结果
2
进行整合,
即预测得到未来一段时间内将会购买目标商品的用
户及其具体的购买时间。
算法与
Stackin
g
集成学习方式有效结合,提出一种
基于多个差异化模型的组合预测模型来预测用户未
来的购买行为。
研究方法
本文提出了基于
Stackin
g
融合模型的用户购
买行为预测方法。图
1
描述了整个方法的总体
框架。
图
1
总体框架
首先,采用所有用户的原始数据集来分别预测
用户是否购买和用户的购买时间。使用完整的数据
进行两个方面内容的预测能够保证数据的一致性,
同时使得模型能够最大可能地利用数据,从而提升
模型整体的预测性能。
其中,用户是否购买预测的目标为使用分类模型
预测下一段时间内用户是否购买目标商品,即得到会
购买目标商品的用户用户集。具体如下:首先收集所
需的数据,同时进行分析和处理,得到噪声较少以及
更加结构化的数据集。其次,根据用户购买行为分析
进行特征选择和特征构建,得到较高维度的特征数据
集。然后,将特征数据集输入
Stackin
g
分类融合模型
中进行有效的训练。最后,即训练得到的分类融合模
型进行样本外预测,得到预测结果
1
,即预测得到未
来一段时间内将会购买目标商品的用户集。
用户购买时间预测的目标为使用回归模型预测
下一段时间内每个用户具体的购买时间。这一步骤
2.1
数据收集和处理
在本研究中,我们主要收集了某个零售商的历
史销售数据。我们为每条数据提取了以下属性:会
员编码、订单编码、购买时间、购买数量、购买价格、
花费、产品容量和产品品类。这些属性如表
1
所示。
收集到的历史销售数据包括会员和非会员的购
买记录,会员具有唯一标识
Vi
p
code
,非会员
Vi
p
code
属性值为空值,因此我们删除了
Vi
p
code
属性
值为空值的所有记录。同时,
Number
属性值一般来
说为正整数,但在收集到的销售数据中存在
Number
属性值等于
0
或小于
0
的现象。经过分析得知小于
0
的为退货数据,等于
0
的为进行促销时的赠品数据。
因此,为避免这些噪声数据对预测结果产生影响,我
们将
Number
属性值小于
0
的数据与顾客对应的购
买数据进行抵消,同时删去所有
Number
属性值为
0
的数据,从而保证所有
Number
属性值大于
0
。最后,
我们进行了空值和重复值的处理工作。
表
1
销售数据属性表
属性描述
Vi
p
code
会员编码
Order
订单编码
Date
购买时间(____年___月___日)
Number
购买数量(个)
Price
购买单价(元)
Cost
花费(不一定等于数量
单价)
Wei
g
ht
产品容量(
g
)
Cate
产品品类
2.2
特征工程
在研究中,为了有效地扩大样本数据量,使预测
模型的训练尽可能覆盖所有历史数据,我们使用了
时间滑窗方法进行特征提取。时间滑窗如图
2
所示。
如图
2
所示,每组数据长度为
5
个月,其中最后
一个月为标签月,前四个月用于提取特征,每次滑动
长度为一个月。特征时间窗又分为五个特征提取窗
2
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
口,分别为距离标签月首日
7
天、
14
天、
1
个月、
2
个
月、分别统计分析这五个窗口内的
4
个月。然后,
特征。
是一款基于决策树算法的分布式梯度提升框架。它
的优点在于减少了数据对内存的使用,保证单个机
尽可能地使用更多的数器在不牺牲速度的情况下,
据;同时减少通信的代价,提升多机并行时的效率,
图
2
时间滑窗
在用户购买行为预测的研究中,影响预测准确
性的主要因素包括用户因素(徐琪等,
2014
;马云高
等,
2012
)和产品因素(
Arunra
j
etal.
,
2015
)。在对
销售数据进行充分分析之后,我们基于用户购买行
为习惯和产品属性等因素从小的特征提取窗口中提
取出了用户特征和商品特征,如表
2
所示。
表
2
特征变量表(一)
特征描述
目标商品总花费
所有商品总花费
目标商品总容量
购买天数特征(目标商品、所有商品、两者比值)
用户特征购买订单数特征(目标商品、所有商品、两者比值)
购买数量特征(目标商品、所有商品、两者比值)
平均每笔订单商品数
平均每天购买商品数
每件目标商品平均购买次数
价格特征(最大值、最小值、均值、中位数)
商品特征单位价格特征(最大值、最小值、均值、中位数)
容量特征(最大值、最小值、均值、中位数)
除此之外,考虑到数据的全局性以及产品的消
耗率相对固定等特点,我们还在最大的时间窗口内
提取出了以下用户特征,如表
3
所示。
.3
应用模型
本文采用多种机器学习分类和回归算法,包括
i
g
htGBM
算法(
Ke
,
Men
g
&Finle
y
,
2017
)、
XG
oost
算法(
Chen&Guestrin
,
2016
)、随机森林算
法(
Liaw&Wiener
,
2002
)、逻辑回归算法、
Lasso
回归算法,其中前三种算法是集成模型,后两种为简
单模型。前三种算法用于与融合模型比较预测性
能,同时也是融合模型的基学习器,而后两种算法仅
作为融合模型的元学习器。
.3.1
Li
g
htGBM
算法
Li
g
htGBM
(
Li
g
htGradientBoostin
g
Machine
)
实现在计算上的线性加速。
表
3
特征变量表(二)
特征描述
首次下单的日期(目标商品、所有商品,距离标签日的
天数)
最后一次下单的日期(目标商品、所有商品,距离标签
日的天数)
最后一笔目标商品订单与最后一笔所有订单时间差
第一笔与最后一笔目标商品订单时间差
用户特征
目标商品购买时间间隔(最大值、最小值、均值、标准
差)
商品平均消耗率
最后一笔目标商品购买总容量
推断特征
1
(最后一次购买容量可用多少天)
推断特征
2
(推测的购买日期)
.3.2
XGBoost
算法
XGBoost
(
eXtremeGradientBoostin
g
)与
Li
g
htG
M
都是基于决策树的算法。它的优点在于使用许多
策略去防止过度拟合,同时支持并行化,添加了对稀疏
数据的处理,训练速度快,训练结果精度高。
.3.3
随机森林算法
随机森林(
RandomForest
)是指利用多棵决策
树对样本进行训练并预测的一种算法。随机森林算
法是一个包含多个决策树的算法,其输出的类别是
由个别决策树输出类别的众树来决定的。
它的优点在于对于大部分的数据,它的分类效
果比较好;它能处理高维特征,不容易产生过度拟
合,模型训练速度比较快,特别是对于大数据而言;
在决定类别时,它可以评估变数的重要性;它对数据
集的适应能力强,既能处理离散型数据,也能处理连
续型数据,数据集无需特意规范化。
.3.4
逻辑回归算法
逻辑回归(
Lo
g
isticre
g
ression
)是一种与线性
回归非常类似的算法。从本质上讲,线型回归处
理的问题类型与逻辑回归不一致。线性回归处理
的是数值问题,而逻辑回归属于分类算法。也就
是说,逻辑回归预测结果是离散的分类,例如判断
一封邮件是否是垃圾邮件等,所以逻辑回归是一
种经典的二分类算法。逻辑回归是在线性回归的
计算结果加上了一个
Si
g
moid
函数,将数值结果转
化为
0
~
1
的概率,然后根据这个概率做预测,例
2
B
2
2
2
L
B
2
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
如概率大于
0.
则这封邮件就是垃圾邮件。
5
,
2.3.5
Lasso
回归算法
)都是广
Lasso
回归和岭回归(
Ridereression
gg
义线性回归模型的一种。
Lasso
回归与岭回归都属
于后验概率模型。
2.4
犛狋犪犮犽犻狀
犵
模型融合
,)
StackinTinitten1997
g
模型融合方法(
g
&W
首先将原始特征数据集划分成若干子数据集,输入
第
1
层预测模型的各个基学习器中,每个基学习器
输出各自的预测结果。然后,第
1
层的输出再作为
3
实证分析
3.1
数据
本文以一家连锁零售企业洗衣用品的
POS
机
其中以品类
1
洗衣皂)销售数据作为实证样本,
05
(
为目标商品进行用户未来是否购买和具体购买时间
的预测。
本文的数据集包括从
2011
年
4
月
1
日到
10
月
价
31
日的
7
个月内
8
种洗衣用品每天的销售数量、
格、花费及产品容量等。考虑到数据集数据量比较
第
2
层的输入,对第
2
层预测模型的元学习器进行
训练,再由位于第
2
层的模型输出最终预测结果。
tackin
g
模型融合方法可以通过对多个模型的输出
结果进行泛化,提升整体预测精度。
在本研究中,我们使用
Li
g
htGBM
、
XGBoost
、
随机森林三种不同的集成模型算法作为基学习器得
到三组预测结果,然后将三组预测结果应用在第二
层使用元学习器,包括逻辑回归或
Lasso
回归进行
训练,从而得到最终的预测结果,如图
3
和图
4
所
示。其中,用户是否购买和用户购买时间预测所用
的
Stackin
g
模型融合方法步骤大致相同,不同的是
用户是否购买的基学习器使用的是三种集成算法中
的分类算法,元学习器使用的是逻辑回归分类算法,
而用户购买时间预测的基学习器使用的是三种集成
算法中的回归算法,元学习器使用的是
Lasso
回归
算法。
图
3
用户是否购买预测
Stackin
g
模型融合方法
图
4
用户购买时间预测
Stackin
g
模型融合方法
小,为了有效扩大样本数据量,使预测模型的训练尽
可能覆盖所有历史数据,我们使用了时间滑窗方法进
行特征提取。进行原始数据处理后,我们设置最大时
间窗口为
120
天,特征提取窗口分别为
7
天、
14
天、
30
天、
60
天和
120
天。由于用户每次商品的购买时间间
隔集中在
15
~
30
天,因此设置每隔
15
天滑动窗口一
次,具体如图
5
所示。确定时间窗口后,我们提取出
了包括
159
个维度的特征向量。
图
5
时间滑窗提取特征示意图
图
5
中,时间窗左侧的
25701
等数字表示当前
数据组满足
4
个月内购买过产品的会员用户数,目
的是保证用户在前
4
个月的特征提取窗口内有过购
买行为,即能提取出有效的用户特征。其中,前四组
作为训练集,第五组(十月份组)作为测试集用于检
验模型性能。
3.2
模型性能评估
本文进行了用户未来是否购买和购买时间预测
问题的研究,本节分别使用机器学习中常用的分类
问题和回归问题评估指标来评估预测模型的性能。
为了使模型具有一定的可解释性,我们还分析了预
测性能较优的若干个模型的特征重要性结果。
3.2.1
购买行为预测模型性能评估
预测用户未来是否购买是一个典型的二分类问
题,因此我们使用二分类问题中常用的评估指标,包
括准确率、精确率、召回率、
Auc
值以及
Roc
曲线来
评估模型性能。同时,我们将
Stackin
g
融合模型和
单个的基学习器和元学习器模型结果进行了比较,
S
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
在测试集上的评估结果如表
4
所示。
表
4
分类模型比较结果
Model
逻辑回归
LihtGBM
g
XGBoost
随机森林
融合模型
准确率
0.5561
0.8256
0.7741
0.7619
0.8504
精确率
0.5882
0.7439
0.6898
0.6959
0.8083
召回率
0.0018
0.9264
0.8929
0.8241
0.8693
Auc
值
0.586
0.910
0.872
0.847
0.928
用于本研究中的非线性问题,它无法有效处理复杂
的非线性回归问题。在其他四个非线性模型中,
其中
MLihtGBM
的预测性能最优,
SE
和
EVS
值
g
为最优,
MAE
值次优。融合模型的三个评估指标
结果有两个为次优且与最优结果差距不大。这说明
在解决购买时间的预测问题上,
LihtGBM
模型是
g
最优的,其次是融合模型。
表
5
回归模型比较结果
ModelMSEMAEEVS
注:黑体加粗的为每个指标的最优结果,加下划线的为每个指标的
次优结果
如表
4
所示,逻辑回归算法的表现最差,原因是
逻辑回归这样的线性分类模型不适用于本研究中的
非线性问题,它无法处理复杂的非线性分类问题。在
三个单一的集成模型中,随机森林结果表现最差,所
有评估指标结果均低于其他两个模型。而
Li
g
htGBM
的评估指标中次优结果有三个,说明其具有较好的预
测性能。比较除逻辑回归外的其他四个模型的结果,
可以发现融合模型的准确率和精确率以及
Auc
值都
达到最优,这说明使用
Stackin
g
模型融合的方法对于
预测用户购买行为具有很好的预测性能。
融合模型的
犚狅犮
曲线如图
6
所示,曲线非常靠
近
狔
轴以及
狔
=1
,同时曲线下方面积即
auc
值达到
.928
以上。这也说明融合模型对于用户购买行为
具有很好的预测性能。
图
6
融合模型
犚狅犮
曲线图
.2.2
购买时间预测模型性能评估
预测用户的购买时间是一个回归问题,我们使用
回归问题常用的三个指标均方误差(
MSE
)、平均绝对
误差(
MAE
)以及解释方差(
ex
p
lained
_
variance
_
score
,
VS
)来评估模型性能。同时,我们将
Stackin
g
融合
模型和单个的基学习器和元学习器模型结果进行了
比较,在测试集上的评估结果如表
5
所示。
如表
5
所示,线性回归模型
Lasso
回归表现最
差,同样说明
Lasso
回归这样的线性回归模型不适
Lasso
回归
79.7617.6980.0198
Li
g
htGBM40.3354.0410.5087
XGBoost47.3445.0080.4181
随机森林
44.4493.9240.4629
融合模型
42.0034.3420.4808
注:
①
MSE
该指标计算的是误差的平方和的均值,其值越小说明拟
合效果越好;
②
MAE
用于评估预测结果和真实数据集的接近程度,
其值越小说明拟合效果越好;
③
EVS
其值取值范围是[
0
,
1
],越接近
于
1
说明自变量越能解释因变量的方差变化,值越小说明效果越差
.2.3
特征重要性分析
特征重要性分析可以用来评估构建的特征的预
测能力或对预测模型的重要性。通过特征重要性分
析,可以很直接地观测到所构建的特征的预测能力,
从而在一定程度上解释模型或进一步调整模型结
构。在这里我们主要考虑那些表现较好的模型的特
征重要性,即用户是否购买考虑融合模型,用户购买
时间预测考虑
Li
g
htGBM
模型。
用户是否购买融合模型特征重要性前
20
名如
图
7
所示。
图
7
融合模型特征重要性
用户购买时间预测
Li
g
htGBM
模型重要性前
0
位的特征如图
8
所示。
图
7
和图
8
中
120da
y
_
105
_
Ga
p
_
max
为特征名
称
,
120da
y
表示特征提取窗口为
120
天;
105
表示目
标商品,若无
105
则表示全部洗衣商品;
Ga
p
表示购
买时间间隔;
max
为统计方式为最大值,包括
max
0
3
3
E
2
ShanhaiManaementScience
gg
43120212Vol.43No.1Feb.2020
表
6
综合评估结果表
分类
LihtGBM
g
LihtGBM
g
融合模型
融合模型
回归
LihtGBM
g
融合模型
LihtGBM
g
融合模型
_
Sscore
0.5214
0.4837
0.5431
0.4964
(最大值)、(最小值)、(平均值)、中
minmeanmedian
(
位数)、(标准差)。因此,
std120da105
_
Gamax
y
_
p
_
表示目标商品(在
1105
)
20
天内的最大购买时间
间隔。
如表
6
所示,用户是否购买预测使用融合模型,
图
8
Li
g
htGBM
模型特征重要性
如图
7
所示,用户是否购买排名前
20
的特征
中,购买时间间隔四个特征有三个排在前三位,另一
个标准差特征也在前
20
中,同时前
10
中有
7
个特
征与目标商品消耗率或购买时间间隔有关,这说明
用户购买目标商品具有一定的周期性。另外,前
20
特征中还出现了
60
天内的平均价格和最小价格特
征,这说明商品的近期价格在一定程度上也会影响
用户的购买行为。此外,与目标商品相关的其他商
品的一些特征也会影响购买行为,如所有商品总花
费、所有商品的首次购买时间和最后一次购买时间
等特征均在前
20
内。
如图
8
所示,用户购买时间预测
Li
g
htGBM
模
型特征重要性与图
7
类似。前
20
中包括了购买时
间间隔相关特征、价格相关特征、总花费相关特征
等,这说明用户购买具有一定的规律性,同时也会考
虑用户自身的支付能力以及商品的价格。
.2.4
综合预测性能评估
我们构造了如式(
1
)所示的综合评估函数,用来
评估各种模型组合的综合预测性能。
犛
=
∑
犽
∈
犓
狆
犳
(
犽
)
狊犮狅狉犲
|
犓
(
1
)
狆
|
烄
0
,
犽
犓
狉
犳
(
犽
)
=
烅
15
(
2
)
烆
15+
犱
犽
2
,
犽
∈
犓
狆
其中,
犓
狉
为实际购买目标商品的用户集,
犓
狆
为
预测的购买目标商品的用户集,
犱
犽
表示实际购买时
间与预测购买时间之间的距离。
如前所述,
Li
g
htGBM
模型和融合模型都具有
较好的预测性能,因此我们使用这两个模型的四种
组合来评估综合预测性能,结果如表
6
所示。
用户购买时间预测使用
Li
g
htGBM
模型的综合预
测性能最优。此模型组合方式相比于两个预测问题
均使用融合模型提升了
9.4%
的预测性能。
结语
预测用户未来购买行为和购买时间可以为企业
的库存决策和用户营销管理提供支持。尽管已有的
研究已经从不同角度进行了研究,但大多研究仅关
注于未来一段时间用户是否会购买,而对于用户
具体购买时间的研究较少。本文提出一种使用
tackin
g
方法融合多种决策树模型的组合预测模
型来预测用户的购买行为及其具体的购买时间。
为此,我们将
Li
g
htGBM
、
XGBoost
、随机森林三种
不同的集成决策树模型的预测结果进行融合,然
后基于融合的预测结果使用简单的逻辑回归分类
模型和线性回归模型分别预测用户的购买行为和
具体的购买时间。最后,我们使用了真实的零售
企业销售数据来验证评估本文的模型。结果表
明,融合模型在预测用户是否购买时具有最高的
准确率和
AUC
值,准确率达
85%
、
AUC
值达到
.928
。另外,在预测用户具体的购买时间时,我
们还发现
Li
g
htGBM
算法相比于融合模型具有最
优预测性能。同时,如果在不同问题阶段使用融
合模型和
Li
g
htGBM
算法,则融合模型
+Li
g
htG
M
算法的组合相比于两个预测问题均使用融合
模型提升了
9.4%
的预测性能。
一条完整的用户购买记录包括购买时间、购买
数量、购买花费等属性值,因此未来可能的研究方向
是对未来购买的实际数量或价值的预测。基于相同
的特征处理方式训练预测模型,构建预测模型对用
户的购买数量和购买价值进行预测是未来一个重要
的研究课题,可以为企业的运营和战略决策提供更
有利的支持。
参考文献:
[
1
]
ALLENBYGM
,
LEONERP
,
JENL.Ad
y
namic
modelof
p
urchasetimin
g
witha
pp
licationtodirect
4
S
0
B
3
ShanhaiManaementScience
gg
[]
marketinJ.JournaloftheAmericanStatisticalAs
g
,():
1999
,
94446365374.sociation
[
2
]
RT?NEZA
,
SCHMUCKC
,
PEREVERZYEVJR
MA
,
etal.AmachinelearninrameworkforcustomerS
g
f
[]
urchase
p
redictioninthenoncontractualsettinJ.
pg
EuroeanJournalofOerationalResearch
,
2018.
pp
[
3
]
IUY
,
ZHUT
,
JIANGY.PurchasePrediction
L
//
C
]
BasedonaNonarametricBaesianMethod
[
py
Proceedinsofthe52ndHawaiiInternationalConfer
g
enceonSstemSciences.2019.
y
[
4
]
RNITERJD.Anentroodelofbrand
p
ur
HE
py
m
43120212Vol.43No.1Feb.2020
ressiveinteratedmovinveraemodelforshort
ggg
a
g
]
termfreewarafficvolumeforecastinJ.Trans
y
t
g
[
,():
ortationResearchRecord1999
,
16781179188.
p
[]
13AMOSP
,
SANTOSN
,
REBELOR.Performance
R
ofstatesaceandARIMAmodelsforconsumerretail
p
salesforecastinJ
]
.RoboticsandComuterinte
g
[
p
,():
ratedManufacturin201534151163.
gg
[]
14INIMH
,
KARGARIANA
,
KARABASOGLU
AM
O.ARIMAbaseddecouledtimeseriesforecastin
pg
ofelectricvehiclecharinemandforstochastic
gg
d
]
J.ElectricPowerSstemsowersstemoeration
[
ypyp
chasebehavior
[
J
]
.JournalofMarketin
g
Research
,
1973
,
10
(
4
):
361375.
[
5
]
PLATZERM
,
REUTTERERT.Tickin
g
awa
y
the
moments
:
timin
g
re
g
ularit
y
hel
p
stobetter
p
redict
customeractivit
y
[
J
]
.Marketin
g
Science
,
2016
,
35
(
5
):
779799.
[
6
]
WUX
,
ZHUX
,
WUGQ
,
etal.Dataminin
g
with
bi
g
data
[
J
]
.IEEETransactionsonKnowled
g
eand
DataEn
g
ineerin
g
,
2013
,
26
(
1
):
97107.
[
7
]
RICHTERY
,
YOMTOVE
,
SLONIMN.Predic
tin
g
customerchurninmobilenetworksthrou
g
hanal
y
sisofsocial
g
rou
p
s
[
C
]//
Proceedin
g
softhe2010SI
AMinternationalconferenceondataminin
g
.Societ
y
forIndustrialandA
pp
liedMathematics
,
2010
:
732741.
[
8
]
LINCS
,
TZENGGH
,
CHINYC.Combinedrou
g
h
settheor
y
andflownetwork
g
ra
p
hto
p
redictcustom
erchurnincreditcardaccounts
[
J
]
.Ex
p
ertS
y
stems
withA
pp
lications
,
2011
,
38
(
1
):
815.
[
9
]
AMINA
,
ANWARS
,
ADNANA
,
etal.Customer
churn
p
redictioninthetelecommunicationsectoru
sin
g
arou
g
hseta
pp
roach
[
J
]
.Neurocom
p
utin
g
,
2017
(
237
):
242254.
[
10
]
HUSSAINM
,
SHOMEA
,
LEEDM.Im
p
actof
forecastin
g
methodsonvarianceratioinorderu
p
to
level
p
olic
y
[
J
]
.TheInternationalJournalofAd
vancedManufacturin
g
Technolo
gy
,
2012
,
59
(
1
/
2
/
3
/
4
):
413420.
[
11
]
TRATARLF
,
MOJKERCB
,
TOMANA.De
mandforecastin
g
withfour
p
arameterex
p
onential
smoothin
g
[
J
]
.InternationalJournalofProductionE
conomics
,
2016
(
181
):
162173.
[
12
]
LEES
,
FAMBRODB.A
pp
licationofsubsetautore
Research
,
2016
(
140
):
378390.
[
15
]
RENS
,
CHOITM
,
LIUN.Fashionsalesforecas
tin
g
witha
p
aneldatabased
p
articlefiltermodel
[
J
]
.
IEEETransactionsonS
y
stems
,
Man
,
andC
y
bernet
ics
:
S
y
stems
,
2014
,
45
(
3
):
411421.
[
16
]
FADERPS
,
HARDIEBGS.Anoteonaninte
g
rat
edmodelofcustomerbu
y
in
g
behavior
[
J
]
.Euro
p
ean
JournalofO
p
erationalResearch
,
2002
,
139
(
3
):
682
687.
[
17
]
CHOITM
,
HUICL
,
LIUN
,
etal.Fastfashion
salesforecastin
g
withlimiteddataandtime
[
J
]
.Deci
sionSu
pp
ortS
y
stems
,
2014
(
59
):
8492.
[
18
]
LUCJ.Salesforecastin
g
ofcom
p
uter
p
roductsbased
onvariableselectionschemeandsu
pp
ortvectorre
g
ression
[
J
]
.Neurocom
p
utin
g
,
2014
(
128
):
491499.
[
19
]
CANDELIERIA.Clusterin
g
andsu
pp
ortvectorre
g
ressionforwaterdemandforecastin
g
andanomal
y
detection
[
J
]
.Water
,
2017
,
9
(
3
):
224.
[
20
]
GNAYME.Forecastin
g
annual
g
rosselectricit
y
demandb
y
artificialneuralnetworksusin
gp
redicted
valuesofsocioeconomicindicatorsandclimaticcondi
tions
:
caseofTurke
y
[
J
]
.Ener
gy
Polic
y
,
2016
(
90
):
92101.
[
21
]
CHAWLAA
,
SINGHA
,
LAMBAA
,
etal.De
mandforecastin
g
usin
g
artificialneuralnetworks
:
a
casestud
y
ofamericanretailcor
p
oration
[
M
]//
A
pp
li
cationsofArtificialIntelli
g
enceTechni
q
uesinEn
g
i
neerin
g
.Berlin
:
S
p
rin
g
er
,
2019
:
7989.
[
22
]
汪同三,张涛
.
组合预测:理论、方法及应用[
M
]
.
北
京:社会科学文献出版社,
2008.
[
23
]
倪冬梅,赵秋红,李海滨
.
需求预测综合模型及其与
库存决策的集成研究[
J
]
.
管理科学学报,
2013
,
16
(
9
):
4452.
发布者:admin,转转请注明出处:http://www.yc00.com/news/1712935817a2151247.html
评论列表(0条)