2024年4月12日发(作者:)
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号
CN 110988263 A
(43)申请公布日
2020.04.10
(21)申请号 2.X
(22)申请日 2019.12.02
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 凌强 费习宏 李峰
(74)专利代理机构 北京科迪生专利代理有限责
任公司 11251
代理人 安丽
(51).
G01N
33/00
(2006.01)
G06F
30/20
(2020.01)
G06N
20/00
(2019.01)
权利要求书2页 说明书7页 附图2页
(54)发明名称
一种基于改进的Stacking模型的车辆尾气
浓度估计方法
(57)摘要
本发明涉及一种基于改进的Stacking模型
的车辆尾气浓度估计方法,在Stacking模型的基
础上,将Stacking模型的尾气排放浓度估计结果
和一些单个模型的估计结果进行加权求和,得到
最终的车辆尾气排放浓度估计结果。其中
Stacking模型,第一层由多个机器学习模型使用
5折交叉验证训练得到新训练样本集和新测试样
本集,简单线性回归模型作为第二层估计模型来
训练第一层的新训练样本集,训练生成的估计模
型估计新测试样本集,得到尾气浓度估计结果。
本发明可快速准确的估计出该车辆的CO或HC尾
气排放浓度,而且改进的Stacking模型估计性能
相比Stacking模型或Stacking模型中使用到的
单个机器学习模型的估计准确度都有较大提升。
C
N
1
1
0
9
8
8
2
6
3
A
CN 110988263 A
权 利 要 求 书
1/2页
1.一种基于改进的Stacking模型的车辆尾气浓度估计方法,其特征在于,包括以下步
骤:
步骤1:将遥感系统收集到的尾气历史数据划分为尾气训练样本集和尾气测试样本集,
按照5折交叉验证法训练Stacking模型第一层中选用的基模型,得到新训练样本集和新测
试样本集;
步骤2:将Stacking模型第一层得到的新训练样本集和新测试样本集用于第二层简单
估计模型的训练,训练生成的估计模型估计新测试样本集,得到Stacking模型的尾气浓度
估计结果;
步骤3:在改进的Stacking模型第三层中,将Stacking模型的尾气浓度估计结果和一些
单个模型的尾气浓度估计结果进行加权求和,得到最终的尾气浓度估计结果。
2.根据权利要求1所述的一种基于改进的Stacking模型的车辆尾气浓度估计方法,其
特征在于:所述步骤1中,具体过程如下:
(11)记尾气历史数据划分得到的尾气训练样本集为D,其中有m维特征n
D
条记录;尾气历
史数据划分得到的测试样本集为A,其中有m维特征n
A
条记录,将尾气训练样本集D进行5折
处理,即将尾气训练样本集平均分为5份,其中4份数据为训练数据,1份为测试数据,每一份
之间的数据不是重复的,得到训练数据是行尾气训练样本集记录,测试数据是行
尾气训练样本集记录,训练数据和测试数据都含有高维输入特征和标签;
(12)设第一层有t个基模型{Model_1,Model_2,...,Model_t},对于模型Model
i
,i=1,
2,...,t,每一次模型训练的5折交叉验证包含两个过程。第一是基于训练数据来训练模型;
第二是基于训练数据训练生成的模型对测试数据进行估计;在整个第一次的交叉验证训练
基模型Model
i
之后,利用基模型对其中1份的测试数据进行估计,得到关于当前测试数据的
估计值,即得到一个一维行的数据,记为a
1
;再使用当前训练的基模型Model
i
对尾气测
试样本集A进行估计,生成n
A
行估计值,这部分估计值作为下一层新测试样本集的一部分,
记为b
1
;以上过程进行5次,最终会生成针对测试数据估计的5列行的数据序列{a
1
,
a
2
,...,a
5
};对尾气测试样本集的估计结果是5列n
A
行的数据序列{b
1
,b
2
,...,b
5
};
(13)在完成对Model
i
的整个步骤之后,将数据序列{a
1
,a
2
,...,a
5
}首尾拼接起来形成一
个n
D
行一列的序列,记为A
i
;对于数据序列{b
1
,b
2
,...,b
5
},将各列序列进行相加取平均值,
得到一个n
A
行一列的序列,记为B
i
,以上得到一个模型Model
i
的完整实施过程,经过t个基模
型后,把序列{A
1
,A
2
,A
3
,...,A
t
}并列合并得到一个n
D
行t列的矩阵作为新训练样本集的特
征,序列{B
1
,B
2
,...,B
t
}合并得到一个n
A
行t列的矩阵作为新测试样本集的特征。
3.根据权利要求1所述的一种基于改进的Stacking模型的车辆尾气浓度估计方法,其
特征在于:所述步骤2中,具体过程如下:
(21)为了避免过拟合化,第二层估计模型选用简单线性回归估计模型Model
0
;
(22)将第一层得到的新训练样本集的特征作为第二层模型Model
0
训练数据的输入特
征,训练数据的标签值仍然采用第一层的原训练样本集的标签值,训练学习结束后,使用新
测试样本集的特征进行估计,得到Stacking模型的尾气浓度估计结果,其中第一、二层的结
2
CN 110988263 A
权 利 要 求 书
2/2页
构组成为Stacking模型。
4.根据权利要求1所述的一种基于改进的Stacking模型的车辆尾气浓度估计方法,其
特征在于:所述步骤3中,具体过程如下:
(31)改进的Stacking模型的附加层使用的k个模型,包括Stacking模型和k-1个单个模
型使用5折交叉验证法进行训练;训练学习结束后,使用测试样本集进行估计,得到尾气排
放浓度估计结果;
(32)使用Stacking模型和k-1个单个模型的尾气浓度估计结果进行加权求和,其数学
模型为:
其中,f(x)为所述模型的期望输出,即CO或HC尾气浓度估计值;f
i
(x)表示附加层中i个
模型的尾气浓度估计结果,W是权重,b为补偿值,f
1
(x)为Stacking模型的尾气浓度估计结
果。
3
CN 110988263 A
说 明 书
1/7页
一种基于改进的Stacking模型的车辆尾气浓度估计方法
技术领域
[0001]
本发明涉及一种基于改进的Stacking模型的车辆尾气浓度估计方法,属于车辆尾
气排放浓度估计和模式识别领域。
背景技术
[0002]
机动车尾气超标排放是造成大气污染主要原因之一。随着个人拥有汽车的数量显
著增长。根据中国公安部交通管理局的数据,2018年全国新登记的机动车数量为3172万辆,
机动车数量达到3.27亿辆。这些车辆数量的迅速增加加大了尾气的排放量,造成了严重的
环境污染问题。车辆尾气中含有大量有害气体。其中一些有害的汽车尾气也会对人体健康
产生负面影响。特别是,排气会对人体呼吸系统和免疫功能造成一定的伤害,导致呼吸道免
疫力下降,慢性支气管炎的发病率增加等。因此,监测车辆排气浓度进而控制车辆污染气体
的排放具有非常重要的意义。
[0003]
当前,常规的尾气排放浓度检测方案是一般是通过设备检测或者理论推算出尾气
排放浓度。文献[1]-[3]([1]Kousoulidou,Marina,et al."Use of portable emissions
measurement system(PEMS)for the development and validation of passenger car
emission factors."Atmospheric Environment 64(2013):329-338.,[2]O'Driscoll R,
ApSimon H M,Oxley T,et al.A Portable Emissions Measurement System(PEMS)study
of NOx and primary NO2 emissions from Euro 6diesel passenger cars and
comparison with COPERT emission factors[J].Atmospheric environment,2016,145:
81-91.,[3]Luján J M,Bermúdez V,Dolz V,et assessment of the real-world
driving gaseous emissions from a Euro 6light-duty diesel vehicle using a
portable emissions measurement system(PEMS)[J].Atmospheric environment,2018,
174:112-121.)使用设备检测尾气的方案是在机动车的尾部安装车载尾气检测设备(PEMS)
来实时测量尾气的排放。该设备通过与汽车尾气管道相连的探针采集污染物的浓度。该检
测方案设备的成本较高和使用的便利性差。文献[4]([4]Shan H,Liu H,Zhang L,et
control method of Acceleration Simulation Mode emissions detection
systems based on Fuzzy proportional-integral-derivative control[C]//201512th
International Conference on Fuzzy Systems and Knowledge Discovery(FSKD).IEEE,
2015:580-584.)提到一种使用加速模拟模式(ASM)条件检测尾气排放浓度的方法,但仅能
够检测以特定速度行驶的车辆的排气浓度。文献[5]([5]Franco García tion
and improvement of road vehicle pollutant emission factors based on
instantaneous emissions data processing[D].Universitat Jaume I,2014.)提出了使
用测功机测量排放浓度,目前仅限于实验室模拟条件,并且在现实中很难达到实验预期的
结果。文献[6]([6]Geller M D,Sardar S B,Phuleria H,et ements of
particle number and mass concentrations and size distributions in a tunnel
environment[J].Environmental Science&Technology,2005,39(22):8653-8663.)使用隧
4
CN 110988263 A
说 明 书
2/7页
道检测来检测局部废气排放浓度,但它只能检测特定时间和空间的平均废气排放浓度且容
易受到环境条件的影响。随着人工智能技术的发展,文献[7]-[9]([7]Nagendra S M S,
Khare cial neural network based line source models for vehicular
exhaust emission predictions of an urban roadway[J].Transportation Research
Part D:Transport and Environment,2004,9(3):199-208.,[8]Zhang Q,Xu Y,Li F,et
al.A vehicle emission factors concentration inversion method based on deep
neural networks[C]//2018Chinese Control And Decision Conference(CCDC).IEEE,
2018:6325-6330.,[9]Nagendra S M S,Khare cial neural network approach
for modelling nitrogen dioxide dispersion from vehicular exhaust emissions
[J].Ecological Modelling,2006,190(1-2):99-115.)提到使用深度学习为估计尾气排放
浓度提供新的解决思路。采集可以影响尾气排放浓度的多因素特征遥测尾气数据,输入到
神经网络中,利用深度神经网络(DNN)进行浓度估计,但是这种网络的估计准确度较差。
[0004]
综上,常规尾气排放浓度浓度检测的缺陷和现有人工智能技术估计浓度准确率不
高的缺点,亟需一种新的尾气排放浓度检测方法来进一步提高尾气排放浓度的准确率。
发明内容
[0005]
本发明技术解决问题:针对常规尾气排放浓度检测的缺陷和现有人工智能技术估
计浓度准确率不高的情况,提供一种基于改进的Stacking模型的车辆尾气浓度估计方法。
不同的估计模型对于原始数据的学习存在很大的差异性,从不同的视角去探索特征空间,
再把他们的估计结果融合在一起,更全面的学习特征数据,使得最终的估计效果基本上好
于每个基模型。基于Stacking模型的基础上,再组合一些单个机器学习模型的一种改进的
方式来获得更高的尾气排放浓度估计准确率。
[0006]
本发明技术解决方案:一种基于改进的Stacking模型的车辆尾气浓度估计方法,
包括:以多个机器学习模型作为Stacking模型的第一层的基模型,简单线性回归模型作为
Stacking模型第二层的估计模型。最后将Stacking模型和一些单个模型作为改进的
Stacking模型的附加层模型,将各模型的估计结果进行加权求和,得出最终的尾气排放估
计浓度。
[0007]
本发明的基于改进的Stacking模型的建立,具体步骤如下:
[0008]
步骤1:将遥感系统收集到的尾气历史数据划分为尾气训练样本集和尾气测试样
本集,按照5折交叉验证法训练Stacking模型的第一层中的选用的基模型,得到新训练样本
集和新测试样本集;
[0009]
步骤2:将Stacking模型第一层得到的新训练样本集和新测试样本集用于第二层
简单估计模型的训练,训练生成的估计模型估计新测试样本集,得到Stacking模型的尾气
浓度估计结果;
[0010]
步骤3:在改进的Stacking模型第三层中,将Stacking模型和一些单个估计模型
(例如XGBoost和LightGBM)的尾气浓度估计结果进行加权求和得到最终的尾气浓度估计结
果。
[0011]
所述步骤1中,将尾气历史数据划分为尾气训练样本集和尾气测试样本集,基于5
折交叉验证法训练改进的Stacking模型的第一层中的基模型,得到新训练样本集和新测试
5
CN 110988263 A
说 明 书
3/7页
样本集,具体过程如下:
[0012]
(1)尾气训练样本集的5折处理。记尾气历史数据划分得到的尾气训练样本集为D,
其中有m维特征n
D
条记录;尾气历史数据划分得到的测试样本集为A,其中有m维特征n
A
条记
录。将尾气训练样本集D进行5折处理,即将尾气训练样本集平均分为5份,其中4份数据为训
练数据,1份为测试数据,每一份之间的数据不是重复的,得到训练数据是
样本集记录,测试数据是
行尾气训练
行尾气训练样本集记录。其中训练数据和测试数据都含有高
维输入特征和标签。
[0013]
(2)第一层基模型的训练操作过程。设第一层有t个基模型{Model_1,Model_
2,...,Model_t}。对于模型Model
i
,i=1,2,...,t,每一次模型训练的5折交叉验证包含两
个过程。第一是基于训练数据集来训练模型;第二是基于训练数据集训练生成的模型对测
试数据进行估计。如图2所示,模型Model
i
的具体训练流程示意图。在整个第一次的交叉验
证训练基模型Model
i
之后,利用基模型对其中1份的测试数据进行估计,得到关于当前测试
数据的估计值,即得到一个一维行的数据,记为a
1
。然后,使用当前训练的基模型
Model
i
对尾气测试样本集A进行估计,生成n
A
行估计值,这部分估计值将会作为下一层新测
试样本集特征的一部分,记为b
1
。由于进行的是5折交叉验证,所以以上过程将会进行5次,
最终会生成针对测试数据估计的5列行的数据序列{a
1
,a
2
,...,a
5
};对尾气测试样本集
的估计结果会是5列n
A
行的数据序列{b
1
,b
2
,...,b
5
}。
[0014]
在完成对Model
i
的整个步骤之后,将数据序列{a
1
,a
2
,...,a
5
}首尾拼接起来形成
一个n
D
行一列的序列,记为A
i
。对于数据序列{b
1
,b
2
,...,b
5
},将各列序列进行相加取平均
值,得到一个n
A
行一列的序列,记为B
i
。以上得到一个模型Model
i
的完整实施过程。由于选用
t个基模型后,把序列{A
1
,A
2
,A
3
,...,A
t
}并列合并得到一个n
D
行t列的矩阵作为新训练样本
集的特征,序列{B
1
,B
2
,...,B
t
}合并得到一个n
A
行t列的矩阵作为新测试样本集的特征。
[0015]
所述步骤2中,将Stacking模型第一层得到的新训练样本集和新测试样本集用于
第二层简单估计模型的训练,得到Stacking模型的尾气浓度估计结果,具体过程如下:
[0016]
(1)为了避免过拟合化,第二层学习器选用简单线性回归估计模型Model
0
;
[0017]
(2)将第一层得到的新训练样本集的特征作为第二层模型Model
0
训练数据的输入
特征,训练数据的标签值仍然采用第一层的原训练样本集的标签值。训练学习结束后,对由
新测试样本集的特征进行估计,得到Stacking模型的最终的估计结果。这里第一、二层的结
构组成为Stacking模型。
[0018]
所述步骤3中,在改进的Stacking模型第三层中,将Stacking模型和其他单个模型
的尾气浓度估计结果进行加权求和,得到最终的尾气浓度估计结果,具体过程如下:
[0019]
(1)改进的Stacking模型的附加层使用的k个模型,包括Stacking模型和k-1个单
个模型使用5折交叉验证法进行训练。训练学习结束后,使用测试样本集进行估计,得到尾
气排放浓度估计结果。
[0020]
(2)使用Stacking模型和k-1个单个模型的尾气浓度估计结果进行加权求和,其数
6
CN 110988263 A
说 明 书
4/7页
学模型为:
[0021]
其中,f(x)为所述模型的期望输出,即CO或HC尾气浓度估计值;f
i
(x)表示附加层i
个模型的估计结果,W是权重,b为补偿值,f
1
(x)为Stacking模型的尾气浓度估计结果。
[0023]
本发明与现有技术相比的优点在于:
[0024]
(1)由于不同的估计模型对于尾气数据的学习存在很大的差异性,可以从不同的
视角去探索特征空间,再把他们的估计结果融合在一起,可以更全面的估计特征数据,使得
最终的估计效果基本上好于Stacking模型中所用到的每个基模型。
[0025]
(2)基于Staking模型能够得到较好的估计性能的基础上,本发明充分利用估计性
能较优的Stacking模型,在使用其它估计性能较好的单个机器学习模型,利用估计结果的
不同权重加权求和来得到更好的尾气浓度估计准确率。基于改进的Stacking模型的车辆尾
气浓度估计模型估计车辆尾气浓度的精度高于当下估计性能好的Stacking模型及强学习
器的结果精度。
[0022]
附图说明
[0026]
图1为本发明的改进的Stacking模型车辆尾气浓度估计方法流程图;
[0027]
图2为改进的Stacking模型的第一层每一个基学习器的具体训练流程;
[0028]
图3为改进的Stacking模型训练的整体流程示意图。
具体实施方式
[0029]
由于道路上通行车辆尾气排放浓度受气象环境影响,本发明首次引入气象环境因
素,再综合遥感尾气数据,能够更加全面的进行尾气浓度估计。同时本发明首次使用流行的
回归估计模型Stacking模型和Boosting算法中的CatBoost、LightGBM及XGBoost等模型,将
多种一流的回归算法集成在一起,更大限度的综合优秀估计性能的算法。同时在Stacking
模型的基础上,本发明更大程度的利用该集成模型,提出改进的Stacking,将Stacking与一
些单个模型的估计结果采用加权求和方式进一步挖掘估计结果之间的权重关系,进一步提
升尾气浓度估计准确度。下面结合附图进行详细说明。
[0030]
如图1所示,本发明具体实现如下:
[0031]
1.基于改进的Stacking模型的车辆尾气浓度估计模型的建立
[0032]
对尾气遥感监测数据和监测点气象数据融合成历史尾气数据,再按照3:1的比例
划分为训练集与测试集。模型输入特征选取是否通过、是否数据、车辆速度、加速度、不透光
烟度、温度、湿度、风速、风向角度、实测车辆CO尾气浓度、实测车辆CO2尾气浓度、激光吸收
光谱反演初始CO2尾气浓度、实测车辆HC尾气浓度及实测车辆NO尾气浓度14个属性字段;模
型的输出特征为由燃烧方程反解得到的CO、HC浓度。
[0033]
2.构造改进的Stacking模型
[0034]
2.1尾气训练样本集的5折处理
[0035]
输入尾气训练样本集为m维特征n
D
条记录,测试样本集为m维特征n
A
条记录。将尾气
训练样本集平均不重复的分为5份,其中4份数据为训练数据,1份为测试数据。
7
CN 110988263 A
[0036]
说 明 书
5/7页
2.2第一层基模型的训练
[0037]
本发明选用3个基模型,CatBoost、随机森林回归RFR和GBoost。对于每个模型,每
一次模型训练进行5折交叉验证。在整个第一次的5折交叉验证训练基模型之后,利用基模
型对其中1份的测试数据进行估计,得到一个一维行的数据,记为a
1
。然后,使用当前训
练的基模型对尾气测试样本集A进行估计,生成n
A
行估计值,记为b
1
。以上过程将会进行5次,
最终生成针对测试数据估计的5列行数据序列{a
1
,a
2
,...,a
5
}。对尾气测试样本集的估
计结果会是5列n
A
行数据序列{b
1
,b
2
,...,b
5
}。将数据序列{a
1
,a
2
,...,a
5
}首尾拼接起来形
成一个n
D
行一列的矩阵,记为A
i
。对于数据序列{b
1
,b
2
,...,b
5
},将各列序列进行相加取平均
值,得到一个n
A
行一列的矩阵,记为B
i
。由于选用3个基模型,将得到序列{A
1
,A
2
,A
3
}并列合并
得到一个n
D
行3列的矩阵,作为新训练样本集的特征;得到的序列{B
1
,B
2
,B
3
}合并得到一个n
A
行3列的矩阵作为新测试样本集的特征。
[0038]
2.3第二层学习器的训练
[0039]
将第一层得到的新训练样本集的特征作为第二层模型训练数据的输入特征。训练
数据的标签值仍然采用第一层的原训练样本集的标签值。这里选用简单线性回归模型
Lasso。模型Lasso训练学习结束后,对由新测试样本集的特征进行估计,得到Stacking模型
的最终的估计结果。第一、二层的组合即为Stacking模型。
[0040]
2.4附加层的使用方法。
[0041]
将Stacking得到的估计结果和一些单个模型的估计结果。这里单个模型选用
LightGBM和XGBoost。按照加权求和法进行求和,得到基于改进的Stacking模型的最终尾气
估计浓度。
[0042]
如图3所示,基于改进的Stacking模型训练的全部结构图。
[0043]
3.基于改进的Stacking模型的车辆尾气浓度估计
[0044]
改进的Stacking模型训练完成后,对于输入样本,可实现快速精确尾气浓度估计。
选取均方根误差RMSE,相关系数R,平均绝对误差MAE和拟合优度Rnew作为改进的Stacking
尾气浓度估计模型的统计分析性能指标。这里RMSE和MAE的值越小,R和Rnew的值越大,表明
模型的估计性能越好。其中RMSE、R、MAE和Rnew的数学表达式为:
[0045]
[0046]
[0047]
8
CN 110988263 A
说 明 书
6/7页
[0048]
[0049]
其中,N为测试车辆样本个数,y
i
,分别为样本相应的CO(HC)尾气浓度,样
本平均CO(HC)尾气浓度,样本CO(HC)尾气估计浓度,样本平均CO(HC)尾气估计浓度。
[0050]
分别使用上述的改进的Stacking模型、Stacking模型、改进的Stacking模型中所
用到的全部单个模型和DNN模型对CO、HC尾气浓度进行尾气浓度估计,相关统计性能对比如
表1所示。
[0051]
表1改进的Stacking方法、Stacking、改进的Stacking模型中所用到的全部单个模
型和DNN模型估计随机测试车辆样本的CO和HC尾气浓度统计性能对比表
[0052]
[0053]
[0054]
由表1可以看出,与Stacking模型、改进的Stacking模型中所用的全部单个模型和
DNN模型相比,基于改进的Stacking模型的CO和HC尾气浓度估计方法,得到的相关系数R和
拟合优度Rnew更大,均方根误差RMSE和平均绝对误差MAE更小,也就是说基于改进的
9
CN 110988263 A
说 明 书
7/7页
Stacking模型的CO和HC尾气浓度估计性能要优于一般基于Stacking模型、改进的Stacking
模型中所用的全部单个模型和DNN模型。
[0055]
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本
发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修
改,均应涵盖在本发明的范围之内。
10
CN 110988263 A
说 明 书 附 图
1/2页
图1
11
CN 110988263 A
说 明 书 附 图
2/2页
图2
图3
12
发布者:admin,转转请注明出处:http://www.yc00.com/news/1712934949a2151061.html
评论列表(0条)