2024年4月12日发(作者:)
中国环境科学 2020,40(2):582~590 China Environmental Science
基于Stacking集成学习模型的气态亚硝酸预测
唐 科
1,2
,秦 敏
1*
,赵 星
2
,段 俊
1
,方 武
1
,梁帅西
1,2
,孟凡昊
1,2
,叶凯迪
1,2
,张鹤露
1,2
,谢品华
1,2,3
(1.中国科
学院安徽光学精密机械研究所,环境光学与技术重点实验室,安徽 合肥 230031;2.中国科学技术大学,安徽 合肥 230026;3.
中国科学院区域大气环境研究卓越创新中心,福建 厦门 361021)
摘要:建立了基于Stacking集成学习下气态亚硝酸(HONO)预测模型.利用非相干宽带腔增强吸收光谱(IBBCEAS)系统获得的北京城区HONO的浓度,
结合HONO的来源,选取了O
3
、CO、SO
2
、NO、NO
2
、NO
y
、温度(T)、相对湿度(RH)、风速(WS)、j(HONO)、j(NO
2
)、j(O
1
D)作为特征数据,通过对
HONO的平均日变化分析,将测量时间按小时转换为新特征.分别以极端梯度提升(XGBoost)、轻量化梯度促进机(LightGBM)以及随机森林(RF)算法构
建基模型,采用5折交叉验证的方式划分训练集,将基模型输出的结果作为新特征集,并将新特征集作为第二层线性回归模型的输入,通过对这两层中的
模型进行训练,最终得到Stacking集成学习HONO预测模型.通过对模型的特征重要度分析和计算夜间交通直接排放所占的贡献,表明CO是模型预测
中重要的影响因子,说明机动车的直接排放是该区域冬季时期HONO的重要来源.利用测试集分别对单模型和融合后模型的预测性能进行评估,3个单
模型的预测结果与测量值的相关系数都达到了0.91以上,其中Stacking融合后的模型性能最好,相关系数达到了0.94,平均绝对误差和均方根误差分别
为0.307×10
9
和0.453×10
9
,结果表明基于Stacking集成学习方式下HONO预测模型的可解释性和推广性.
--
关键词:Stacking;K折交叉验证;集成;气态亚硝酸;预测
中图分类号:X511 文献标识码:A 文章编号:1000-6923(2020)02-0582-09
Prediction of gaseous nitrous acid based on Stacking ensemble learning model. TANG Ke
1,2
, QIN Min
1*
, ZHAO Xing
2
, DUAN
Jun
1
, FANG Wu
1
, LIANG Shuai-xi
1,2
, MENG Fan-hao
1,2
, YE Kai-di
1,2
, ZHANG He-lu
1,2
, XIE Pin-hua
1,2,3
( Laboratory of
Environment Optics and Technology, Anhui Institute of Optics and Fine Mechanics, Chinese Academy of Sciences, Hefei 230031,
China;sity of Science and Technology of China, Hefei 230026, China; for Excellence in Regional Atmospheric
Environment, Chinese Academy of Sciences, Xiamen 361021, China). China Environmental Science, 2020,40(2):582~590
Abstract:A gaseous nitrous acid (HONO) prediction model based on Stacking ensemble learning was proposed. The concentrations
of HONO in Beijing urban area were obtained using incoherent broadband cavity enhanced absorption spectroscopy (IBBCEAS).
Combined with the HONO sources, O
3
, CO, SO
2
, NO, NO
2
, NO
y
, temperature (T), relative humidity (RH), wind speed (WS),
j(HONO), j(NO
2
), j(O
1
D) were selected as characteristic data. By analyzing the average diurnal variation of HONO, the
measurement time was converted into a new feature hour by hour. The base model was constructed by utilizing Extreme Gradient
Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM) and Random Forest (RF) algorithm. The training set was
partitioned by 5-fold cross-validation method. The output of the base model was taken as a new feature set and as the input of
second-level linear regression model. HONO prediction model was finally obtained via training the models in these two layers.
Through the feature importance analysis and calculating the contribution of direct emission of vehicles at night, it showed that CO
was an important impact factor in the prediction model, and that the direct emission of vehicles was a major source of HONO in the
winter period at the region. The prediction performance of the base model and the Stacking ensemble model were evaluated by the
test set respectively. The correlation coefficients between forecast results and measured values for the three base models were above
0.91. The performance of the Stacking ensemble model was the best, whose correlation coefficients reached 0.94. The average
absolute error and root mean square error were 0.307×10
-
9
and 0.453×10
-
9
, respectively. Explanability and applicability of the
HONO prediction model based on Stacking ensemble learning.
Key words:stacking;K-fold cross validation;ensemble;gaseous HONO;prediction
高浓度的二次有机气溶胶(SOA)表明大气具有
很强的氧化性,其主要受OH自由基和臭氧(O
3
)的浓
度支配
[15]
.然而,在冬季雾霾期间O
3
浓度和其光解
-
收稿日期:2019-07-24
基金项目:国家自然科学基金资助项目(41875154,91544104,4170050319);
中国科学院重点部署项目(KFZD-SW-320);国家重点研发计划项目
(2017YFC0209403);中国科学院安徽光学精密机械研究所所长基金资助
项目(AGHH201601)
* 责任作者, 研究员, mqin@
率通常较低,表明仍然存在着较强的OH自由基源
促使SOA的生成.而最新的研究发现PM
2.5
和
2期 唐 科等:基于Stacking集成学习模型的气态亚硝酸预测 583
HONO的浓度呈现很好的相关性
[6]
,表明HONO对
SOA的形成具有促进作用. HONO作为OH自由基
的重要来源,白天HONO通过光解,生成NO和OH
自由基,进而会主导着SOA的形成
[6]
,因而了解
HONO的浓度分布特征对研究大气氧化性、探索
HONO对OH自由基形成的贡献以及研究PM
2.5
的
生成具有重要的意义.
预测模型一般分为机理模型和统计模型.而目
前常用的HONO浓度预测模型都是基于机理模型,
如CMAQ
[8]
、Box
[9]
以及WRF-Chem
[7]
等.这类模型
都是通过将HONO不同来源添加到模型中,依据物
质的传播、扩散以及物质间的相互反应原理来构建
HONO的预测机理模型
[7
-
9]
.目前已知的HONO来
源主要有直接排放、气相均相反应、非均相过程以
及光致来源.直接排放源包括机动车的排放、化石
燃料的燃烧以及土壤的直接排放
[10]
;气相源主要是
NO和OH自由基的反应
[11]
;非均相源主要为NO
2
在地面、建筑物、气溶胶等表面的非均相反应
[12]
;
光致来源主要包括硝态氮的光解
[13]
,但采用已有认
知来源难以解释外场观测到的高浓度HONO
[11]
.关
于HONO的来源问题目前仍是国际上讨论的热点
问题,这些机理模型依据已有认知的HONO来源进
行预测,而在实际的观测中,会导致模型与观测值之
间存在偏差.
最近相关研究尝试将统计模型应用到空气质量
预测中
[18]
.统计模型是根据历史观测数据的基本统计
性质来预测未知目标值,统计模型具有计算效率高、
速度快等优点.目前所使用的统计模型主要包括时间
序列分析模型、线性或非线性回归模型以及人工智能
模型.但是往往预测的数据与影响因子之间并不是单
纯的线性关系,存在某种非线性关系.传统的线性回归
模型并不能精准预测目标值.最新的研究将人工智能
的方法应用到空气质量预测中来.目前常用的人工智
能算法主要有支持向量机
[14
-
15]
(SVM)、随机森林
(RF)
[16]
、长短期记忆循环神经网络(LSTM)
[17]
等.目前
越来越多的研究尝试将人工智能算法应用到大气污
染物浓度预测上,如PM
2.5
[18]
、O
3
[19]
等,这些基于人工
智能算法的预测模型都获得了较好的表现.因而,采用
机器学习方法构建HONO浓度预测模型对弥补机理
模型预测中的不足具有很好的研究意义.
本文在利用IBBCEAS系统获得HONO浓度的
基础上,将机器学习前沿算法极端梯度提升
(XGBoost)、轻量化梯度促进机(LightGBM)、随机森
林(RF)有效的结合起来,提出了一种基于Stacking框
架下的集成学习HONO预测模型.通过比较这3种单
模型与融合后的模型的预测性能,考察基于Stacking
集成学习模型对大气HONO浓度的预测效果.
1 材料与方法
1.1 实验数据
训练模型的相关数据采用2016年11月15日
~12月6日
在中国科学院大气物理研究所铁塔分部
(116°22′E, 39°58′4N)测量的数据集.该区域位于北
京市三环~四环之间,周边交通繁忙,对于研究城市
地区污染物浓度分布特征具有代表性.HONO的测
量是利用非相干宽带腔增强吸收光谱技术
[20]
,并根
据目前文献中已知的HONO来源,选取了可能影响
HONO浓度的气体因子和气象因子作为特征数据,
分别为O
3
、NO
2
、NO、NO
y
、SO
2
、CO、以及j(HONO)、
j(NO
2
)、j(O
1
D)、WS、T、RH,考虑到HONO白天
的寿命较短以及为了获取HONO浓度快速变化的
特征,所有数据采用1min的时间分辨率输入到模型
中进行训练.
1.2 数据的预处理
图1 特征之间的相关性
Fig.1 The correlations between the features
为了分析不同特征与预测值之间的关系,将不
同特征与目标值之间的相关性进行分析,图1展示
了影响因子之间的皮尔逊相关系数(r).皮尔逊相关
系数分析表明HONO与NO
y
、CO及RH之间的相
584 中 国 环 境 科 学 40卷
关性良好,相关系数r达到了0.64以上,其中CO与
HONO的r达到了0.89,而HONO与其它特征之间
的相关性稍差,r均低于0.5,表明HONO与这些特征
之间的关系不是简单的线性关系,存在较复杂的非
线性关系.
6
5
4
)
9
0
-
1
×
3
(
O
N
O
2
H
1
0
-1
00:00 04:00 08:00 12:00 16:00 20:00 24:00
时刻
图2 HONO浓度日变化
Fig.2 The diurnal variation of HONO
20
)
15
%
(
比
分
百
10
值
失
缺
5
0
32
y
2
)
O
O
O
O
O
)
)
O
D
O
O
T
H
S
O
N
N
N
C
S
O
1
2
N
N
R
W
N
((
O
O
jj
H
H
(
j
因子
图3 数据的缺失值
Fig.3 Abnormal value of data
观测期间HONO的日变化如图2所示,HONO浓
度呈现出规律的日变化过程,白天浓度低,夜晚浓度高,
随着日落,HONO浓度逐渐升高,至0:00达到最高值
3.16×10
-
9
,随后逐渐下降,在中午13:00左右达到最低
值0.75×10
-
9
.基于此日变化过程,将观测时间按小时划
分作为一个特征,加入到模型中进行训练,由于仪器探
测限的限制,部分观测数据会出现负值,在这里负值作
为异常值处理,将数据中的负值替换为零.图3展示了
数据缺失值所占百分比,数据的缺失值较少,对数据的
缺失部分采用线性插值的方式进行填充.
1.3 XGBoost算法原理
XGBoost是一种基于梯度增强的机器学习方
法
[21
-
22]
.XGBoost使用了一种提升树模型,而所用到
的树模型是分类回归树(CART)模型.因为一棵树可
能不足以获得好的结果,所以同时使用了多颗CART,
最后的预测结果是每个CART的得分之和.模型可
以写成
y
ˆ
K
i
=φ
(
x
i
)
=
∑
f
k
=1
k
(
x
i
)
,f
k
∈F
(1)
式中:f是函数空间
F
中的函数;
F
是所有可能的
CART树的集合;K代表所有树的数量.优化的目标
函数如方程(2)所示,该方程的关键是在学习
f
t颗树
时,不断添加有助于目标最小化的
t
,其中
(t−1)
示第t-1迭代时对样本i的预测,
ly
i
,y
ˆ
i
(t−1)
是训练
损失函数,Ω是正则化项,目的是控制拟合
()
y
ˆ
i
表
的偏差,以
控制学习任务的灵活性,使得能够更好地推广到预
测模型中.
L
(t)
=
∑
n
l
ˆ
(t−1)
i
(
y
i
,
y
i
+f
t
(
x
i
)
)
+Ω
(
f
t
)
(2)
此外,XGBoost根据某一特征用于分割数据的
频率或在节点拆分时特征的平均增益来生成特征
重要性评分,这对于分析HONO的主要来源有很大
的帮助和意义.
1.4 随机森林算法原理
随机森林是一种基于决策树的方法
[23]
.决策树
在训练集上通常能获得较好的预测性能,但是树分
裂过多可能会导致模型的过拟合,最终在测试集上
表现很差.基于此,在这种情况下,必须对树进行剪枝,
生成一棵较小的树,并减少分裂,从而降低偏差,产生
可行的结果.但是在许多情况下正确的修剪过程却
不会产生合适的模型.但是随机森林是一种集成机
器学习方法,它是根据多颗决策树的表现来组合最
终的预测结果.图4显示了随机森林拓扑结构示意
图.假设训练集有N个样本
,M个特征,采用自助法的
抽样方法随机选取n个子样本,然后将每个子样本
随机分为袋内数据(IB)和袋外数据(OOB).IB数据根
据随机选择特征子集被拆分成2种类型,并重复拆
分过程,直到没有要拆分的数据为止.OOB数据不参
与到训练过程中,而是用来确定森林中决策树的最
佳数目,用来评判模型的好坏.
2期 唐 科等:基于Stacking集成学习模型的气态亚硝酸预测 585
训练集
N
个样本
,M
个特征
有放回的
随机抽样
抽样
1
抽样
2
...
抽样
n
袋内
数据
每个训练集随机
选取特征子集
决策树模型
建立
模型
1
袋外
数据
袋内
数据
袋外
数据
袋内
数据
袋外
数据
模型
2
...
模型
n
预测
1
预测
2
...
预测
n
最终预测
结果
图4 随机森林预测结构示意
Fig.4 Schematic diagram of random forest prediction structure
1.5 LightGBM算法原理
均优于GBDT算法.同时,决策树是一个弱分类器,直
方图算法的使用将具有正则
化的效果,并能有效地
防止过拟合.在减少训练数据方面,LightGBM算法
采用了按叶子生长策略(Leaf-wise),与传统的按层
生长的决策树生长策略相比(Level-wise),Leaf-wise
在生长同一片叶片时可以减少更多的损失,如图5
所示.此外,还可以利用额外的参数限制决策树的深
度,避免过度拟合.
2 结果与分析
按层生长
按叶生长
2.1 集成学习下HONO模型的构建
本文提出一种基于Stacking框架下的多模型融
合方法
[26]
,通过对不同机器学习模型的相互融合,以
达到提高预测准确度的目的.这种叠加模型一方面可
以看作是在特定的学习集上工作,然后用第2层中的
模型校正预测残差,估计所有基模型的误差.另一方
面,它可以看作是一个超多层感知器,它使用第一层
模型作为隐层的神经单元,第二层模型作为输出层单
元,目的是最大限度地提高预测精度、通用性和鲁棒
性.图6展示了所提出的两层Stacking模型.第一层由
3个基模型组成,
基于树模型固有的特征选择能力,将
特征提取后产生的变量直接输入到这些模型中,使得
所有的基模型都能够进行特征重要性评分和预测,所
以基模型选择的算法分别为XGBoost、LightGBM、
图5 LightGBM中树的生长策略
Fig.5 Tree growth Strategy in LightGBM
LightGBM是微软在2017年提出的基于GBDT
的算法
[2425]
.目前提出的LightGBM算法在不降低
-
预测精度的同时大大加快了预测速度,降低了内存
利用率.传统的GBDT算法在构建决策树时往往会
消耗大量的计算时间.决策树的构建需要找到最优
的分割点,一般的方法是对特征值进行排序,然后枚
举所有可能的特征点.这种方法浪费时间,需要大量
的内存.LightGBM算法采用了一种改进的直方图算
法.它将连续的特征值划分为k个区间,并在k个值中
选择划分点.因此,该算法在训练速度和空间效率上
586 中 国 环 境 科 学 40卷
RF,所以在获得预测结果的同时还可以得到不同特
征的重要性评分,对于分析产生HONO的影响因素
具有重要的作用,第二层由线性回归(LR)模型组成,
第一层基模型的输出作为第二层模型的输入.为了防
止模型的过拟合,使用5折交叉验证的策略来训练基
模型.训练集(X[0], X[1],…,X[n];n默认为偶数)被划分
成基本相等的5份,每次使用其中的4份进行训练,
剩余的1份用于验证,因此每个基模型会进行5次训
练,每次
训练好的模型采用验证集验证,这样每个验
证集将会得到n/5个数据,每个基模型进行5次训练
后就会得到一组新的特征集(T1,T2,…,Tn).所有基模
型训练完会有3组新特征集,将这3个新特征集作为
第二层模型的输入,最后结合第二层的输入特征和最
终的目标结果作为第二层模型的训练集,第二层的模
型采用线性回归算法进行训练,最终得到Stacking融
合模型.在预测阶段,采用每个基模型在5折交叉训练
时产生的模型来对预测集进行预测,此时每个样本会
产生5个预测值,将其平均后结果输入到Stacking模
型中,Stacking模型的预测结果作为预测集的最终预
测结果.
XGBoost、RF、LightGBM
测试集
分别训练
训练集
X[1]~X[n/5]
原
始
数
据
集
(
X
[
1
]
、
X
[
2
]
、
.
..
、
X
[
n
]
)
n
默
认
为
偶
数
X[1]~X[n/5]
X[(n+5)/5]~X[n/5]
X[(2n+5)/5]~X[3n/5]
X[(3n+5)/5]~X[4n/5]
X[1]~X[n/5]
X[(n+5)/5]~X[n/5]
X[(2n+5)/5]~X[3n/5]
X[(3n+5)/5]~X[4n/5]
X[1]~X[n/5]
X[(n+5)/5]~X[n/5]
X[(2n+5)/5]~X[3n/5]
X[(3n+5)/5]~X[4n/5]
X[1]~X[n/5]
X[(n+5)/5]~X[n/5]
X[(2n+5)/5]~X[3n/5]
X[(3n+5)/5]~X[4n/5]
X[(n+5)/5]~X[n/5]
随机划分
X[(2n+5)/5]~X[3n/5]
X[(3n+5)/5]~X[4n/5]
X[(4n+5)/5]~X[n]
X[(4n+5)/5]~X[n]
5组预测结
果
X[(4n+5)/5]~X[n]X[(4n+5)/5]~X[n]
测试集
新特征集
T[1]、T[2]、...、T[n]
训练
X[(4n+5)/5]~X[n]
预测集P
预测
P1、P2、P3、P4、P5
取平均
线性回归
Pm
预测
最终模型
最终预测值
图6 Stacking 集成学习下HONO预测模型
Fig.6 HONO prediction model based on Stacking ensemble learning
2.2 模型评估
将2016年11月15日~2016年12月6日的气
体数据和气象数据作为训练集,总共28346个样本,
将2016年11月9日~2016年11月15日期间的总
共8000个样本作为测试集.对每个基模型都采用5
折交叉验证的方法来确定训练阶段的最佳参数,模
型以平均绝对误差(MAE),均方根差(RMSE)作为评
价标准,计算方法分别见式(3)和式(4).模型性能越
好,MAE和RMSE值越小.
1
n
ˆ
i
MAE
=
∑
y
i
−y
n
i=1
(3)
1
n
2
ˆ
y−y
RMSE
=
()
∑
ii
(4)
n
i=1
ˆ
i
分别为样本的实际值和预测值;n为样本
式中:
y
i
,
y
2期 唐 科等:基于Stacking集成学习模型的气态亚硝酸预测 587
的数量.
将测试集输入训练结束的模型中,以验证每个
模型的泛化能力.从表1和图7中可以看出,以RF建
立的单模型在训练集中的表现最好,其相关系数R
2
达到了0.998,但是当所有的模型应用到测试集时,在
训练集上表现非常好的RF模型预测性能却出现了
下降,说明RF模型在训练集上存在着一定程度的过
拟合,而Stacking模型应用于测试集时的性能相比
于其它3种单模型却表现出最佳,相关系数R
2
、
MAE、RMSE分别比单模型中表现最好的提升了
1.06%、5.65%和7.55%,表明多模型融合框架
Stacking对全新的数据集的预测具有很好的泛化性
能,使得整个模型具有很好的鲁棒性.图8展示了训
练集中测量值和预测值的时间序列,模型预测值和
实际测量值整体吻合较好,在几段HONO浓度持续
升高和降低期间的趋势都能很好的捕捉到,例如,在
2016年11月15日傍晚观测到HONO浓度从
0.2×10
9
持续上升到4.6×10
9
,而模型预测值也敏锐
--
的捕捉到此时HONO的快速变化过程.表明了
Stacking集成学习模型在HONO预测方面的可靠性
以及准确性.
表1 不同模型在测试集和训练集上的表现
Table 1 The performance of different models on Test set and
training set
模型
参数 XGBoostLightGBM RF Stacking
R
2
0.928 0.910 0.919 0.938
RMSE 0.498 0.515 0.490 0.453
测试集 MAE 0.406 0.416 0.389 0.367
Slope 0.940 0.905 0.951 0.955
0.989 0.998 0.993 R
2
0.992
训练集 RMSE 0.328 0.363 0.291 0.322
MAE 0.271 0.293 0.248 0.267
Slope 0.990 0.935 0.997 0.993
注:粗体数字表示最佳结果.
7
6
S
t
a
c
k
i
n
g
(a)测试集中Stacking融合模型
与测量结果的相关性
7
6
X
G
B
o
o
s
t
5
4
3
2
1
0
(b)测试集中
XGBoost
融合模型
与测量结果的相关性
5
y=a+bx
4
a=0.099
b=0.955
3
R
2
=0.938
2
1
0
0 12 3 4 5
测量值
6
y=a+bx
a=0.170
b=0.940
R
2
=0.928
0123
测量值
45 6
6
5
L
i
g
h
t
G
B
M
4
3
2
1
0
y=a+bx
a=0.207
b=0.905
R
2
=0.910
(c)测试集中LightGBM融合模型
与测量结果的相关性
7
6
5
4
3
2
1
0
-1
0 12 3 4 5
测量值
6
R
F
y=a+bx
(d)测试集中RF融合模型
a=0.052
与测量结果的相关性
b=0.951
R
2
=0.919
0123
测量值
456
12
10
y=a+bx
8
a=0.013
b=0.993
6
R
2
=0.993
4
2
0
-2
(e)训练集中Stacking融合模型
与测量结果的相关性
12
10
X
G
B
o
o
s
t
8
6
4
2
0
1214
S
t
a
c
k
i
n
g
y=a+bx
a=0.020
b=0.990
R
2
=0.992
(f)训练集中XGBoost融合模型
与测量结果的相关性
0 2 4 6 8 10
测量值
0246810 12 14
测量值
588 中 国 环 境 科 学 40卷
12
y=a+bx
(g)训练集中LightGBM融合模型
与测量结果的相关性
10
a=0.131
b=0.935
8
R
2
=0.989
6
4
2
0
0 2 4 6 8 10
测量值
1214
14
12
10
8
R
F
6
4
2
0
0246810 12 14
测量值
y=a+bx
a=0.006
b=0.997
R
2
=0.998
(h)训练集中RF融合模型
与测量结果的相关性
L
i
g
h
t
G
B
M
图7 不同模型在测试集和训练集预测值与测量值相关性分析
Fig.7 Correlation Analysis between predicted results by different models and measured values in test set and training set
7
6
H
O
N
O
浓
度
(
×
1
0
)
9
-
测量值
预测值
的基本思想是一个特征越经常地被用来作为树的
切分特征,那么这个特征就越重要,折算到模型中特
征重要性分数越高就越匹配模型的预测函数,而表
中LightGBM在训练集上的表现与其它单模型相
比也是最差的,从而也体现了LightGBM不同特征
的切分和其它单模型不同. 根据图9中给出的模型
特征重要性评分可知,CO和O
3
的平均分数较高,其
中CO的平均分数甚至达到了0.4,远远超过其它特
征评分,说明CO和O
3
在HONO的预测模型中扮演
着重要的角色.根据图1可知CO与NO
2
、NO的相
关性也达到了0.81,表明CO与NO
x
有着相似的来
源,CO往往可以作为交通排放的示踪剂
[27]
,而监测
地点位于城区高架桥的交叉处,来往车辆众多,表明
由于交通直接排放的HONO在该模型中占有很重
要的地位.为了进一步分析交通直接排放对HONO
生成贡献,使用夜间HONO数据(18:00~6:00)和NO
浓度大于20×10
9
来计算交通直接排放因子, 随着
-
5
4
3
2
1
0
2016-11-09 2016-11-11 2016-11-13 2016-11-15
日期
图8 预测值与实际测量值时间序列
Fig.8 The time series of predicted value and actual measured
value
2.3 特征重要度分析
每个基模型利用不同的方法生成特征重要性
分数,对于XGBoost模型,特征重要性评分是根据
节点拆分时特征的平均增益来评估.最终模型的特
征重要度的评分是将3个基模型的特征分数归一
化后再进行平均计算.从图9可知,3个基模型的特
征重要性分数排序不同,其中XGBoost和RF的重
要性排序基本一致,而LightGBM单模型和其它模
型的特征重要性排序略有不同,而评估特征重要性
0.7
0.6
0.5
分
数
0.4
0.3
0.2
0.1
时
间
0
2
气团老化,由于NO
2
向HONO的转化,HONO/NO
x
(NO
x
=NO
2
+NO)比值逐渐增大,因此采用测量期间
最小的HONO/NO
x
比值(0.0075)作为排放因子,然
后计算交通直接排放的HONO(HONO
0.0075)
[28]
.
0.5
0.4
分
数
0.3
0.2
0.1
(b) RF不同特征得分
RF
排放
=[NO
x
]×
(a) XGBoost不同特征得分
XGBoost
j
(
H
O
N
O
)
T
R
H
W
S
j
(
N
O
)
O
N
O
N
O
N
O
C
O
S
O
j
(
O
D
)
时
间
1
1
2
特征
j
(
H
O
N
O
)
T
R
H
W
S
j
(
N
O
)
O
N
O
N
O
N
O
C
O
S
O
j
(
O
D
)
32
y
2
0
32
y
2
特征
2期 唐 科等:基于Stacking集成学习模型的气态亚硝酸预测 589
0.18
(c) LightGBM不同特征得分
0.16
0.14
0.12
分
数
分
数
0.10
0.08
0.06
0.04
0.02
时
间
0
1
2
LightGBM
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0
(d) 不同模型特征平均得分
平均分数
j
(
H
O
N
O
)
T
R
H
W
S
O
N
O
N
O
N
O
C
O
S
O
j
(
O
D
)
j
(
N
O
)
1
2
特征
特征
j
(
H
O
N
O
)
T
R
H
W
S
O
N
O
N
O
N
O
C
O
S
O
j
(
O
D
)
j
(
N
O
)
32
y
2
时
间
32
y
2
图9 模型的特征重要性
Fig.9 Feature importance of the model
图10展示了夜间直接排放的HONO与HONO
比值的频率分布,根据图10计算出夜间直接排放对
大气HONO的平均贡献率为30.27%(±18.91%),与
Zhang等
[29]
于2016年北京地区计算得到的
40%(±18%)的值相当,表明机动车直接排放是该区
域重要的夜间HONO来源.O
3
的浓度会影响着当地
的大气氧化性,而据研究报道,在某些地区HONO可
以贡献超过30%的O
3
生产速率
[27]
,从模型特征重要
性上也间接的说明了O
3
与HONO之间存在密切的
关系,表明了HONO会影响着该地区的大气氧化性.
0.16
0.14
0.12
频
率
分
布
0.10
0.08
0.06
0.04
0.02
0.00
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.91.0
HONO
排放
/HONO
色,夜间交通直接排放对HONO的生成贡献达到
30.27%(±18.91%),说明该区域冬季时期机动车直接
排放是HONO的重要来源以及HONO会贡献着O
3
的生成.
3.3 利用测试集对模型的整体性能进行评估,基于
Stacking融合后的模型在测试集上的相关系数R
2
、
MAE、RMSE分别比基模型中表现最好的提升了
1.06%、5.65%和7.55%,表明构建的预测模型具有很
好的泛化性和通用性.
参考文献:
时间
18:00~06:00
样本数
=19048
[1] Huang R J, Zhang Y, Bozzetti C, et al. High secondary aerosol
contribution to particulate pollution during haze events in China [J].
Nature, 2014,514(7521):218-222.
[2] Li G, Bei N, Cao J, et al. A possible pathway for rapid growth of
sulfate during haze days in China [J]. Atmospheric Chemistry and
Physics, 2017,17(5):3301-3316.
[3] Sun Y L, Wang Z F, Fu P Q, et al. Aerosol composition, sources and
processes during wintertime in Beijing, China [J]. Atmospheric
Chemistry and Physics, 2013,13(9):4577-4592.
[4] Deng W, Liu T, Zhang Y, et al. Secondary organic aerosol formation
from photo-oxidation of toluene with NO
x
and SO
2
: chamber
simulation with purified air versus urban ambient air as matrix [J].
Atmospheric Environment, 2017,150:67-76.
[5] Tan Y, Lim Y B, Altieri K E, et al. Mechanisms leading to oligomers
and SOA through aqueous photooxidation: insights from OH radical
oxidation of acetic acid and methylglyoxal [J]. Atmospheric Chemistry
图10 夜间直接排放的HONO与HONO比值的频率分布
Fig.10 Frequency distribution of the ratio HONO
emission
to
HONO at night
3 结论
3.1 构建了以XGBoost、RF、LightGBM算法为基
模型的Stacking集成学习HONO预测模型.
3.2 通过对构建的HONO预测模型的特征贡献度
进行分析,表明CO和O
3
在模型中扮演着重要的角
and Physics, 2012,12(2):801-813.
[6] Hou S Q, Tong S R, Ge M F, et al. Comparison of atmospheric nitrous
acid during severe haze and clean periods in Beijing, China [J].
Atmospheric Environment, 2016,124:199-206.
[7] Zhang J, Chen J, Xue C, et al. Impacts of six potential HONO sources
on HOx budgets and SOA formation during a wintertime heavy haze
period in the North China Plain [J]. Science of the Total Environment,
590 中 国 环 境 科 学 40卷
2019,681:110-123.
[8] Fu X, Wang T, Zhang L, et al. The significant contribution of HONO
to secondary pollutants during a severe winter pollution event in
southern China [J]. Atmospheric Chemistry and Physics, 2019,19(1):
1-14.
[9] Liu Y, Lu K, Li X, et al. A comprehensive model test of the HONO
sources constrained to field measurements at rural North China Plain
[J]. Environment Science Technology, 2019,53(7):3517-3525.
[10] Maljanen M, Yli-Pirilä P, Hytönen J, et al. Acidic northern soils as
sources of atmospheric nitrous acid (HONO) [J]. Soil Biology and
Biochemistry, 2013,67:94-97.
[11] 杨闻达,程 鹏,田智林,等.广州市夏秋季HONO污染特征及白天未
知源分析 [J]. 中国环境科学, 2017,37(6):2029-2039.
Yang W D, Cheng P, Tian Z L, et al. Study on HONO pollution
characteristics and daytime unknown sources during summer and
autumn in Guangzhou China [J]. China Environmental Science, 2017,
37(6):2029-2039.
[12] Wall K J, Harris G W. Uptake of nitrogen dioxide (NO
2
) on acidic
aqueous humic acid (Ha) solutions as a missing daytime nitrous acid
(HONO) surface source [J]. Journal of Atmospheric Chemistry,
2016,74(3):283-321.
[13] Zhou X, Zhang N, TerAvest M, et al. Nitric acid photolysis on forest
canopy surface as a source for tropospheric nitrous acid [J]. Nature
Geoscience, 2011,4(7):440-443.
[14] Wauters M, Vanhoucke M. Support vector machine regression for
project control forecasting [J]. Automation in Construction, 2014,
47:92-106.
[15] Svetnik V, Liaw A, Tong C, et al. Random forest: a classification and
regression tool for compound classification and osar modeling [J].
Journal of Chemical Information and Computer Sciences, 2003,43(6):
1947-1958.
[16] Santana D, Borges W, Poppi R J. Random forest as one-class classifier
and infrared spectroscopy for food adulteration detection [J]. Food
Chem, 2019,293:323-332.
[17] Ma X, Tao Z, Wang Y, et al. Long short-term memory neural network
for traffic speed prediction using remote microwave sensor data [J].
Transportation Research Part C: Emerging Technologies, 2015,54:
187-197.
[18] 黄 婕,张 丰,杜震洪,等.基于RNN-CNN集成深度学习模型的
PM
2.5
小时浓度预测 [J]. 浙江大学学报(理学版), 2019,46(3):370-
379.
Huang J, Zhang F, Du Z H, et al. Hourly concentration prediction of
PM
2.5
based on RNN-CNN ensemble deep learning model [J]. Journal
of Zhejiang University (Science Edition), 2019,46(3):370-379.
[19] 沈路路,王聿绚,段 雷.神经网络模型在O
3
浓度预测中的应用 [J].
环境科学, 2011,32(8):2231-2235.
Shen L L, Wang Y X, Duan L. Application of artificial neural networks
on the prediction of surface ozone concentrations [J]. Environmental
Science, 2011,32(8):2231-2235.
[20] Duan J, Qin M, Ouyang B, et al. Development of an incoherent
broadband cavity-enhanced absorption spectrometer for in situ
measurements of HONO and NO
2
[J]. Atmospheric Measurement
Techniques, 2018,11(7):4531-4543.
[21] Dietterich T G. An experimental comparison of three methods for
constructing ensembles of decision trees: bagging, boosting, and
randomization [J]. Machine Learning, 2000,40(2):139-157.
[22] Wu Y C, Qi S F, Hu F, et al. Guestrin C. Recognizing activities of the
elderly using wearable sensors: a comparison of ensemble algorithms
based on boosting [J]. 2019,39(6):743-751.
[23] Gounaridis D, Koukoulas S. Urban land cover thematic disaggregation,
employing datasets from multiple sources and random forests
modeling [J]. International Journal of Applied Earth Observations &
Geoinformation, 2016,51:1-10.
[24] Ju Y, Sun G Y, Chen Q H, et al. A model combining convolutional
neural network and lightGBM algorithm for ultra-short-term wind
power forecasting [J]. IEEE Access, 2019,7(4):28309-28318.
[25] Gao X, Luo H, Wang Q, et al. A human activity recognition algorithm
based on stacking denoising autoencoder and lightgbm [J]. Sensors
(Basel), 2019,19(4).
[26] Lu X, Wang Y, Li J, et al. Evidence of heterogeneous HONO
formation from aerosols and the regional photochemical impact of this
HONO source [J]. Environmental Research Letters, 2018,13(11):
114002.
[27] 孟凡浩,秦 敏,梁帅西,等.合肥市典型交通干道大气苯系物的特征
分析 [J]. 环境科学, 2011,32(8):2231-2235.
Meng F H, Qin M, Liang S X, et al. Characteristics of atmospheric
BTX near a main road in Hefei city [J]. Environmental Science,
2011,32(8):2231-2235.
[28] Su H, Cheng Y F, Cheng P, et al. Observation of nighttime nitrous acid
(HONO) formation at a non-urban site during PRIDE-PRD2004 in
China [J]. Atmospheric Environment, 2008,42(25):6219-6232.
[29] Zhang W Q, Tong S R, Ge M F, et al. Variations and sources of nitrous
acid (HONO) during a severe pollution episode in Beijing in winter
2016 [J]. Science of the Total Environment, 2019,648:253-262.
致谢:
本研究的特征数据由中国科学院大气物理研究所、利兹大学和
约克大学提供,在此表示感谢.
作者简介:
唐 科(1992-),男,安徽安庆人,中国科学院安徽光学精密机
械研究所博士研究生,主要从事大气痕量气体光谱学定量方法研究.发表
论文1篇.
发布者:admin,转转请注明出处:http://www.yc00.com/web/1712936187a2151307.html
评论列表(0条)