2024年4月26日发(作者:)
702021,57(7)
ComputerEngineeringandApplications计算机工程与应用
⦾
理论与研发
⦾
非对称
ν
-无核二次曲面支持向量回归机
马梦萍,杨志霞
新疆大学数学与系统科学学院,乌鲁木齐830046
摘要:针对回归问题提出了非对称
ν
-无核二次曲面支持向量回归机。通过引入Pinball损失函数,使得位于
ε
带上
方和下方的样本点具有不同的惩罚,从而得到更优的回归函数。进一步从理论上分析了参数
p
和
ν
控制
ε
带上方和
下方错误样本点数目的上界。当
p=0.5
时,该方法就退化成了对称
ν
-无核二次曲面支持向量回归机,此时也证明
了参数
ν
可控制支持向量的个数。事实上,该算法不需要使用核函数,从而避免了核参数的选择且不损失决策函数
的可解释性。数值实验部分展示了该算法具有更好的拟合性能且耗时较少,也分析了参数
p
不会增加计算成本。
ν
-支持向量回归机;关键词:无核二次曲面支持向量回归机;Pinball损失
文献标志码:A中图分类号:TP181doi:10.3778/.1002-8331.2004-0056
Asymmetric
ν
-Kernel-FreeQuadraticSurfaceSupportVectorRegression
MAMengping,YANGZhixia
CollegeofMathematicsandSystemsScience,XinjiangUniversity,Urumuqi830046,China
Abstract:Anasymmetric
ν
-oducingthePin-
balllossfunction,thetrainingpointsaboveandbelowthe
ε
bandaregivendifferentpenalties,sothebetterregression
rmore,theparameters
p
and
ν
controltheupperboundofthenumberofthetrainingpoints
classifiedincorrectlyaboveandbelowthe
ε
p=0.5
,themethodisdegeneratedintoasymmetric
ν
-kernel-free
quadraticsurfacesupportvectorregression,andthenumberofsupportvectorswhichcanbecontrolledbyparameter
ν
,thealgorithmiskernelfree,thusavoidingtheselectionofkernelparameterwithoutlosingtheinter-
ericalexperimentshowsthattheproposedapproachhasbetterfittingperfor-
manceandlesstimeconsumption,andtheparameter
p
willnotincreasethecomputationalburden.
ν
-supportvectorregression;kernel-freequadraticsurfacesupportvectorregression;PinballlossKeywords:
支持向量机(SupportVectorMachine,SVM)由文
献[1-2]提出,它可解决分类问题
[3-4]
、回归问题
[5-6]
以及聚
类问题
[7]
等。由于其结构简单,计算简洁,具有直观的几
何意义,因此被广泛应用于股票价格预测
[8]
、金融时间序
列预测
[9]
、农业土壤特性预测
[10]
等领域。支持向量机是
一种运用最优化方法,解决数据挖掘等问题的学习算
法。Vapnik
[11]
在1999年提出了带有核函数的支持向量
机,然而,带有核函数的支持向量机的决策函数缺乏
可解释性且需要选择合适的核参数。2007年,Dagher
[12]
与此同时,基于统计理论的
ν
-支持向量回归机
[13-14]
成功地应用到回归任务中,它通过引入一个新的参数
ν
来控制拟合误差,参数
ν
能够控制支持向量个数占总
样本点个数的份额的下界。随后,Huang等
[15]
提出了非
对称
ν
-支持向量回归机(Asymmetric
ν
-tubeSupport
VectorRegression,Asy-
ν
-SVR),它给予位于
ε
带上方
和下方的样本点不同的惩罚,通过调整参数
p
得到较好
的回归函数。
本文提出了非对称
ν
-无核二次曲面支持向量回归
机(Asymmetric
ν
-kernel-freeQuadraticSurfaceSupport
VectorRegression,Asy-
ν
-QSSVR)。具体地,该方法的
目标是根据训练集得到二次函数,且在建模时引入Pin-
提出一种新的无核二次非线性支持向量机,该算法无
需使用核函数,利用一阶近似,直接用二次曲面分离训
练点。
基金项目:国家自然科学基金(11561066);新疆自治区自然科学基金(XJEDU2018I002)。
作者简介:马梦萍(1994—),女,硕士研究生,研究领域为机器学习、数据挖掘,E-mail:*******************;杨志霞(1977—),
女,博士,硕士生导师,研究领域为最优化方法、机器学习。
收稿日期:2020-04-06修回日期:2020-06-03文章编号:1002-8331(2021)07-0070-08
马梦萍,等:非对称
ν
-无核二次曲面支持向量回归机
ball损失函数,从而给予
ε
带上方和下方的样本点有不
同的惩罚。同时,本文也给出支持向量、错误样本点的
定义,进一步通过理论证明了
ε
带上方和下方的错误样
本点个数的上界分别是
pνn
和
(1-p)νn
。当
p=0.5
时,
本文的方法就退化成了对称
ν
-无核二次曲面支持向量
回归机,此时本文也证明了参数
ν
能控制支持向量个数
占总样本点个数的比值的下界。事实上,非对称
ν
-无
核二次曲面支持向量回归机不需要引入核函数,所以减
少了核参数的选择,且不损失决策函数的可解释性。数
值实验表明,参数
p
并不会增加计算成本,且与非对称
ν
-支持向量回归机和
ε
-无核软二次曲面支持向量回归
机(
ε
-kernel-freeSoftQuadraticSurfaceSupportRegres-
sion,SQSSVR)
[16]
相比,本文的方法得到较小的均方根
误差且耗时相对较少。
本文首先简单回顾了非对称
ν
-支持向量回归机和
ε
-无核软二次曲面支持向量回归机。然后,提出了本文
的新方法非对称
ν
-无核二次曲面支持向量回归机及相
应性质的讨论。接着是数值实验部分。最后是对本文
的总结和讨论。
1背景知识
本章首先简要介绍了非对称
ν
-支持向量回归机,
其次讨论了
ε
-无核软二次曲面支持向量回归机。给定
训练集:
T={(x
1
,y
1
),(x
2
,y
2
),…,(x
n
,y
n
)}
(1)
其中
x
i
∈R
m
,y
i
∈R,i=1,2,…,n
。
1.1非对称
ν
-支持向量回归机
考虑Pinball损失函数:
ì
ï
1
(u-ε),u≥ε
L
ε
p
(u)=
ï
2p
í
ï
0,-ε
ï
1
î
2(1-p)
(-u-ε),u≤-ε
其中
p
是非对称参数。显然,当
p=0.5
时
L
ε
p
(u)
为对称
损失函数。图1展示了不同
p
、
ε
的Pinball损失函数的
图像。
9
8
p
=0.5,
ε
=0.5
p
=0.1,
ε
=0.5
7
p
=0.8,
ε
=0.5
6
p
=0.6,
ε
=0.1
)
u
5
(
L
4
3
2
1
0
−3−2−1
0
u
123
图1不同
ε
和
p
对应的Pinball损失函数图像
2021,57(7)
71
非对称
ν
-支持向量回归机的目标是针对训练集
T(1)
找到如下回归函数:
y=(w⋅x)+b
(2)
其中
w∈R
m
是超平面的法向量,
b∈R
是一个偏差
项。事实上允许部分点犯错,通过引入惩罚参数
C>0
与松弛变量
(ξ
1
+
,ξ
1
-
,…,ξ
+
n
,ξ
-
n
)
,得到非对称
ν
-支持向量
回归机的原始问题如下:
w,
min
1
b,ξ
w
2
+Cνε+C
i
+
,ξ
i
-
∑
n
2
(ξ
i=1
i
+
+ξ
i
-
),
s.t.(w⋅x
i
)+b-y
i
-ε≤2(1-p)ξ
i
-
,
y
i
-((w⋅x
i
)+b)-ε≤2pξ
i
+
,
ξ
i
+
≥0,ξ
i
-
≥0,i=1,2,…,n
(3)
其中
ξ
i
+
表示位于
ε
带上边界以上的样本点与
ε
带上边
界的距离,
ξ
i
-
表示位于
ε
带下边界以下的样本点与
ε
带
下边界的距离。注意到,通过调整参数
p
可对样本点产
生不同的惩罚。进一步,可通过求解对偶问题得到回归
函数。
1.2
ε
-无核软二次曲面支持向量回归机
不同于支持向量回归机,
ε
-无核软二次曲面支持向
量回归机是通过给定训练集
T(1)
寻找一个二次函数:
g(x)=
1
2
x
T
Wx+b
T
x+c
(4)
其中矩阵
W∈R
m×m
是对称阵,
b∈R
m
,
c∈R
。为了得
到二次函数(4),构造如下优化问题:
W,b
min
1
,c,ξ
i
+
,ξ
Wx
n
2
i
+b
2
+γ
∑
(ξ
+
+ξ
-
),
i
-
i=1
ii
s.t.(
1
2
x
i
T
Wx
i
+b
T
x
i
+c)-y
i
≤ξ
i
-
+ε,
y
i
-(
1
2
x
i
T
Wx
i
+b
T
x
i
+c)≤ξ
i
+
+ε,
W=W
T
∈R
m×m
,b∈R
m
,c∈R,
ξ
i
+
≥0,ξ
i
-
≥0,i=1,2,…,n
(5)
其中
(ξ
1
+
,ξ
1
-
,…,ξ
+
n
,ξ
-
n
)
为松弛变量,惩罚参数
γ>0
。由
于矩阵
W
是对称阵,求解较为复杂,因此需要将优化问
题进行等价转化并求解等价问题的对偶问题。
注意到,在
ε
-无核软二次曲面支持向量回归机中,
需要事先给定
ε
-不敏感损失函数中的参数
ε
,然而在某
些情况下选择合适的
ε
并不是很容易。
2非对称
ν
-无核二次曲面支持向量回归机
本文提出了非对称
ν
-无核二次曲面支持向量回归
机(Asy-
ν
-QSSVR)。该方法可以自动计算参数
ε
,并
且将参数
ν
与支持向量联系起来。
具体地,该方法的目的是得到回归函数
g(x)=
1
2
x
T
Wx+b
T
x+c
,且要求给予
ε
带外的样本点不同的
惩罚。因此通过引入非对称损失函数Pinball损失
L
ε
p
,
722021,57(7)
ComputerEngineeringandApplications计算机工程与应用
构造如下优化问题:
W,b
min
1
,c,ξ
2
Wx
n
i
i
+
,ξ
i
-
+b
2
+γεν+
γ
n
∑
(ξ
i=1
i
+
+ξ
i
-
),
s.t.(
1
2
x
i
T
Wx
i
+b
T
x
i
+c)-y
i
-ε≤2(1-p)ξ
i
-
,
y
i
-(
1
2
x
i
T
Wx
i
+b
T
x
i
+c)-ε≤2pξ
i
+
,
W=W
T
∈R
m×m
,b∈R
m
,c∈R,
ξ
i
+
≥0,ξ
i
-
≥0,ε≥0,i=1,2,…,n
(6)
其中矩阵
W
是对称阵,
b∈R
m
,c∈R
,惩罚参数
γ>0
,
参数
ν
和
p
需要预先给出。目标函数的第一项表示让
样本点尽可能地接近拟合函数,第二项表示
ε
带的带
宽,第三项表示训练点产生的损失量。前两个约束条件
要求样本点位于
ε
带内。松弛变量
ξ
i
+
、ξ
i
-
表示位于
ε
带
上方和下方的样本点到
ε
带边界的距离。通过调整不
对称参数
p
的值,可对位于
ε
带外的样本点给予不同的
惩罚。事实上,若
p>0.5
时,位于
ε
带上方的样本点的
惩罚比位于
ε
带下方样本点的惩罚大,这意味着可以允
许更多的样本点在
ε
带下方;若
p<0.5
时,则反之;若
p=0.5
时,
ε
带上方和下方的样本点有相同的惩罚。事
实上,此时本文的方法就退化为
ν
版本的无核二次曲面
支持向量回归机,称之为对称
ν
-无核二次曲面支持向
量回归机。在数值实验部分,图2可更直观地说明这一
问题,同时说明了不同的
p
值对回归函数的影响也不
同。进一步,2.2节也在理论上证明了参数
p
和
ν
能够
控制位于
ε
带上方和下方样本点数目的上界。
2.1优化问题求解
注意到优化问题(6)中的
W
是一个矩阵,不容易直
接求解,因此利用矩阵
W
的对称性,可将优化问题做进
一步简化。具体地,由条件
W=W
T
∈R
m×m
,可将其拉
伸成向量
W
,即
W
=[w
11
,w
12
,…,w
22
,…,w
2m
,…,w
mm
]
。
利用向量
W
和样本点
x
i
=[x
1
i
,x
2
i
,…,x
m
i
]
T
∈R
m
的对应
关系来构造矩阵
M
i
。构造过程需要遍历
W
的每一个
元素,若
W
的第
l
个元素是
w
jk
,则
M
i
的第
j
行第
l
个
元素为
x
k
i
,且
M
i
的第
k
行第
l
个元素为
x
i
j
,否则为0。
以3维
(m=3)
样本点的输入
x
i
为例,给出相应
M
i
的具体形式如下:
æ
x
1
i
x
2
i
x
3
i
000
ö
M
ç
i
=
ç
ç
0x
1
i
0x
2
i
x
3
i
0
÷
÷
è
00x
1
i
0x
2
i
x
3
i
÷
ø
并令
H
i
=[M
i
,I]
,其中
I
为
m
维的单位矩阵。
定义向量
s
i
=[
1
2
x
1
i
x
1
i
,…,x
1
i
x
m
i
,
1
2
x
2
i
x
2
i
,…,x
2
i
x
m
i
,…,
1
2
x
m
i
-1
x
m
i
-1
,x
m
i
-1
x
m
i
,
1
2
x
m
i
x
m
i
,x
1
i
,…,x
m
i
]
T
及向量
z=[W
,b]
T
。
优化问题(6)的目标函数的第一项可变为:
∑
n
Wx
2
n
i=1
i
+b
=
∑
(H
i=1
i
z)
T
(H
i
z)=
∑
n
z
T
(H
T
z=z
T
(
i=1
i
)
H
i
∑
n
H
i
T
H
i
)z=z
T
Gz
i=1
则优化问题(6)可等价为:
min
z
T
Gz+γεν+
γ
∑
n
(ξ
i
+
+ξ
i
-
z,c,ξ
+
i
,ξ
-
i
n
),
i=1
s.t.(s
T
i
z+c)-y
i
-ε≤2(1-p)ξ
i
-
,
y
i
-(s
T
i
z+c)-ε≤2pξ
i
+
,
m
2
+
z∈R
2
3m
,c∈R,
ξ
i
+
≥0,ξ
i
-
≥0,ε≥0,i=1,2,…,n
(7)
m
2
+
显然,对任意非零向量
z∈R
2
3m
,
G=
∑
n
H
i
T
H
i
≥0
,矩
i=1
阵
G
是半正定的,因此优化问题(7)是凸二次规划问题。
为了推导出优化问题(7)的对偶问题,通过引入非
负Lagrange乘子向量
(α
+
1
,α
-
1
,…,α
+
n
,α
-
n
)
T
,
(β
1
+
,β
1
-
,…,β
+
n
,
β
-
n
)
T
,ς
,构造Lagrange函数
L(z,c,ε,ξ
i
+
,ξ
i
-
,α
+
i
,α
-
i
,β
+
i
,β
-
i
,
ς)=z
T
Gz+γνε+
γ
n
n
∑
(ξ
+
i
+ξ
-
i
)-
∑
n
(β
+
i
ξ
+
i
+β
-
i
ξ
-
n
i
)-
=1
∑
α
-
i
[ε+
i=1ii=1
2pξ
n
i
+
+y
i
-(s
T
i
z+c)]-
∑
α
+
i
[ε+2pξ
i
+
-y
i
+(s
T
i
z+c)]
。
i=1
分别对Lagrange函数的变量
z,c,ε,ξ
i
+
,ξ
i
-
求偏导数
并另其等于0得:
∇
n
z
L=2Gz-
∑
(α
+
i
-α
-
i
)s
i
=0
(8)
i=1
∇
n
c
L=
∑
(α
+
i
-α
-
i
)=0
(9)
i=1
∇
n
ε
L=γν-ς-
∑
(α
+
i
+α
-
i
)=0
(10)
i=1
∇
γ
ξ
i
+
L=
n
-2pα
+
i
-β
+
i
=0
(11)
∇
γ
ξ
n
α
-
i
-β
-
i
-
L=-2(1-p)
i
=0
(12)
由式(8)得:
n
z=
1
2
∑
(α
+
i
-α
--1
(13)
i=1
i
)G
s
i
将上式代入Lagrange函数可得到优化问题(7)的对
偶问题为:
T
α
min
1
é
n
,α
ê
∑
(α
+
i
-α
-
i
)s
ù
n
i
ú
G
-1
é
ê
∑
(α
+
-α
-
)s
ù
-
=1
iii
ú
i
+
i
-
4
ë
i=1
ûë
i
û
∑
n
y
i
(α
+
i
-α
-
=1
i
)
i
s.t.
∑
n
(α
+
1
i
-α
-
i
)=0,i=1,2,…,n,
i=
∑
n
(α
+
i
+α
-
i
)≤γν,i=1,2,…,n,
i=1
马梦萍,等:非对称
ν
-无核二次曲面支持向量回归机
0≤α
+
γ
i
≤
2pn
,i=1,2,…,n,
0≤α
-
γ
i
≤
2(1-p)n
i=1,2,…,n
(14)
通过求解对偶问题(14)得到
(α
+
1
,α
-
1
,…,α
+
n
,α
-
n
)
,根据
式(13)、
z=[W
,b]
T
及
W
与
W
的关系可得
W
和
b
的值。
综上,归纳非对称
ν
-无核二次曲面支持向量回归
机的算法如下所示。
输入:训练集T,参数
p,ν
以及
γ>0
;
输出:
W,b,c,ε
;
1.求解优化问题(14)得到
(α
+
1
,α
-
1
,
…
,α
+
n
,α
-
n
)
T
;
n
2.根据
z=
1
2
∑
(α
+
i
-α
-
i
)G
-1
s
i
,
z=[W
,b]
T
,及
W
=[w
11
,
i=1
w
12
,…,w
22
,…,w
2m
,…,w
mm
]
,得到
W,b
;
3.计算
c
,选取区间
(0,
γ
2np
)
中的分量
α
+
k
和区间
(0,
γ
2(1-p)n
)
中的分量
α
-
j
,
c=
1
2
[y
j
+y
k
-(
∑
n
(α
+
i
-α
-
i
)G
-1
(s
i
⋅s
j
)+
i=1
∑
n
(α
+
i
-α
-
i
)G
-1
(s
i
⋅s
k
))]
;
i=1
n
4.根据
ε=
∑
(α
+
i
-α
-
i
)(s
i
⋅s
j
)+c-y
j
得到
ε
。
i=1
2.2非对称
ν
-无核二次曲面支持向量回归机的
性质
本节主要通过定义支持向量和错误样本点的概念,
进一步分析参数
p
和
ν
的意义。
定义1(支持向量)称训练集
T(1)
中
(x
i
,y
i
)
所对应
的输入
x
i
为支持向量,如果优化问题(14)的解
(α
+
1
,
α
-
1
,…,α
+
n
,α
-
n
)
T
所对应的分量
α
+
i
≠0
或
α
-
i
≠0
。
定义2(错误样本点)设
(W,b,c,ε,ξ
i
+
,ξ
i
-
)
为原始问
题(6)的解。称训练集
T(1)
中的样本点
(x
i
,y
i
)
为错误样
本点,如果
(ξ
1
+
,ξ
1
-
,…,ξ
+
n
,ξ
-
n
)
T
满足
ξ
i
+
≠0
或
ξ
i
-
≠0
。
定理1已知训练集
T(1)
,用非对称
ν
-无核二次曲
面支持向量回归机进行回归,得到
ε
带,且满足
ε
带上
方的错误样本点数的上界为
pνn
,
ε
带下方的错误样本
点数的上界为
(1-p)νn
,即:
∑
n
L(y
i
>
1
x
i
T
Wx
i
+b
T
x
i
+c+ε)≤pνn
(15)
i=1
2
∑
n
L(y
x
i
T
Wx
(16)
i=1
i
<
1
2
i
+b
T
x
i
+c-ε)≤(1-p)νn
其中
L(a)
为示性函数,即
a
是真,
L(a)=1
,否则等于0。
证明根据式(9)和式(10)以及
ς>0
,则有:
∑
n
α
+
=
∑
n
α
-
γν
i=1
i
i=1
i
≤
2
(17)
对于任意位于
ε
带上方的样本点:
y
i
-(s
T
i
z+c)-ε=2pξ
i
+
,ξ
i
+
>0
根据互补松弛性条件,有
β
i
+
=0
。根据式(11)可
2021,57(7)
73
得
α
+
γ
i
=
2np
,于是有:
∑
n
α
+
γ
⋅npν=
γν
i=1
i
>
2np2
显然,这与式(17)矛盾。因此,参数
p
和
ν
控制了位于
ε
带上方样本点的比例,也就是:
∑
n
(y
i
>s
T
i
z+c+ε)≤pνn
i=1
等价于:
∑
n
L(y
x
i
T
Wx
i
+b
T
x
i
+c+ε)≤pνn
i=1
i
>
1
2
同理可证明出:
∑
n
L(y
x
i=1
i
<
1
2
i
T
Wx
i
+b
T
x
i
+c-ε)≤(1-p)νn
根据定理1可以进一步推导出非对称
ν
-无核二次
曲面支持向量回归机的解满足:
∑
n
L(y
i
∈[
1
x
i
T
Wx
i
+b
T
x
i=1
2
i
+c-ε,
1
2
x
T
i
Wx
i
+b
T
x
i
+c+ε])≥(1-ν)n
具体地,上式表示落在
ε
带内的样本点数大于等于
(1-ν)n
,通常落在
ε
带内的样本点是没有损失的,而落
在
ε
带外的样本点是具有损失的,这说明参数
ν
控制了
落在
ε
带内的样本点的比例,进一步根据式(15)和(16)
可看出参数
p
和
ν
控制了位于
ε
带上方和下方错误样
本点数的上界。
定理2设已知训练集
T(1)
,并用非对称
ν
-无核二
次曲面支持向量回归机进行回归,所得
ε
值非零,若记
支持向量的个数为
q
,且
p=0.5
时,则
ν
是支持向量的
个数占总样本点数的份额的下界,即
ν≤
q
n
。
证明由优化问题(7)的KKT条件知,当
ε>0
时,
ς=0
。由式(10)可得:
1
n
γ
∑
(α
+
+α
-
)
i=1
ii
=ν
由于支持向量对应于
0≤α
+
γ
i
,α
-
i
≤
n
,所以有:
1
γ
⋅
qγ
n
≥ν⇒ν≤
q
n
即支持向量的个数占总样本数的份额不少于
ν
。
另外,由
ν≤
q
n
可知,可通过参数
ν(0≤ν≤1)
的选取
控制支持向量的个数。当
p≠0.5
时,由于
α
+
i
和
α
-
i
的取
值范围不同,因此无法得到上述结论。
3数值实验
在本章中,为了表明本文所提方法在性能上的优越
性,分别在人工数据集和UCI数据库中的10组数据集
742021,57(7)
ComputerEngineeringandApplications计算机工程与应用
上,将本文的方法非对称
ν
-无核二次曲面支持向量回
归机与
ε
-无核软二次曲面支持向量回归机、非对称
ν
-支
持向量回归机进行了对比。该数值试验在Windows7
系统,内存为4.00GB,64位操作系统上完成。使用
MatlabR2014编辑代码,算法中涉及到求解二次函数,通
过调用Matlab中的二次规划函数quadprog来求解。实
验中,本文通过网格搜索的方法取得最优的参数,非对
称
ν
-无核二次曲面支持向量回归机所需的参数
γ、ν、p
分别选自集合
{10
i
|i=-8,-7,…,8}
,
{0.1,0.2,…,0.9}
和
{0.1,
0.2,0.3,0.4,0.45,0.55,0.6,0.7,0.8,0.9}
。而
ε
-无核软二次
曲面支持向量回归机,非对称
ν
-支持向量回归机中的
参数
γ、C
和
p
选择方式与本文算法相同,且
ε=0.01
。
3.1评估准则
为了评估该算法的性能,首先引入几种常用的评估
指标
[17]
,其中
y
i
表示样本点
x
i
的真实值,
y
i
是
x
i
的预
测值,
y
n
ˉ
i
=
∑
i=1
|
y
i
|
是
xy
1
,y
2
,C,y
n
的均值。
平均绝对误差:
MAE=
1
n
n
∑
i=1
|
y
i
-y
i
|
。
均方根误差:
RMSE=
1
n
n
∑
(y
1
i
-y
i
)
2
。
i=
总离差平方和:
SST=
∑
n
(y
i
-y
ˉ
)
2
。
i=1
总离差平方和反映了测试样本的基本方差,通常涉
及由噪声引起的方差。
回归平方和:
SSR=
∑
n
(y
i
-y
ˉ
)
2
。
i=1
回归平方和反映了回归能力。回归平方和越大,从
测试样本中获取的统计信息越多。
决定系数:
R
2
=
SSR
SST
。
决定系数用于测试样本的回归平方和与总离差平
方和的比率。
在大多数情况下,当均方根误差和平均绝对误差较
小时说明估计值和真实值比较接近,但为了防止过拟
合,通常需要用决定系数的值来评估,一般来说决定系
数的值较大会更好。
3.2人工数据集
首先,针对一组人工数据集,来展现本文的算法非
对称
ν
-无核二次曲面支持向量回归机的直观几何意
义。具体地,包括
ε
带的几何图像,以及Pinball损失函
数中的非对称参数
p
对回归函数的影响。同时也直观
展现了本文所提算法的拟合函数的优越性。
本节选择的人工数据集考虑了函数
y=
1
4
x
2
,为了
有效反映本文方法的性能,训练样本被加入均值为0方
差为1的高斯噪声,即下列样本点
(x
i
,y
i
)
:
y
i
=
1
4
x
2
i
+ξ
i
,x
i
~U[-5,5],ξ
i
~N(0,1)
(18)
如图2分别展示了不同的
p
值对非对称
ν
-无核二
次曲面支持向量回归机的影响,图中“·”表示100个样
7
样本点
6
y=1/4x
2
5
Asy-
4
p=0.20
ν
-QSSVR
时的
ε
带
3
y
2
1
0
−1
−2
−3
−5−4−3−2−10
x
12345
(a)
p=0.20
8
样本点
6
y=1/4x
2
Asy-
4
p=0.45
ν
-QSSVR
时的
ε
带
y
2
0
−2
−4
−5−4−3−2−10
x
12345
(b)
p=0.45
7
样本点
6
y=1/4x
2
5
Asy-
4
p=0.50
ν
-QSSVR
时的
ε
带
3
y
2
1
0
−1
−2
−3
−5−4−3−2−10
x
12345
(c)
p=0.50
8
样本点
6
y=1/4x
2
Asy-
4
p=0.70
ν
-QSSVR
时的
ε
带
y
2
0
−2
−4
−5−4−3−2−10
x
12345
(d)
p=0.70
图2人工数据在不同的
p
值下的
ε
带及回归函数
马梦萍,等:非对称
ν
-无核二次曲面支持向量回归机
本点,细实线表示原始函数
y=
1
4
x
2
,粗实线表示本文提
出的方法拟合出的函数,虚线表示本文所得的拟合函数
的
ε
带的边界。从图中可看出,当
p=0.20
时,大量的样
本点位于
ε
带上方,得到的回归函数位于原始函数的下
方,随着
p
值增加,回归函数逐渐被位于
ε
带下方的样
本点“拉”回到原始函数附近,但当
p=0.70
时,回归函
数又远离原始函数。显然,当
p=0.45
时得到的回归函
数最接近原始函数,这说明当
p=0.45
时本文的算法拟
合的结果最好。而
ε
-无核软二次曲面支持向量回归机
在拟合函数时,默认给予
ε
带上方和下方的样本点的惩
罚是相同的,这将限制算法的灵活性。进一步,表1中
还展示了3种算法的平均绝对误差、均方根误差和决定
系数值。实验时,对人工数据集进行了10次十折交叉,
并将10次结果的平均值记录在表中。从表中可以看
出,与
ε
-无核软二次曲面支持向量回归机、非对称
ν
-支
持向量回归机相比,本文的方法的平均绝对误差、均方
根误差都较小,决定系数值较大,且耗时相对较少。
表1在有噪声的人工数据上的测试误差
算法
MAE
R
2
RMSE
时间/s
Asy-
ν
-SVR0.45290.63260.80073.2580
SQSSVR0.43010.59670.76961.1549
Asy-
ν
-QSSVR0.43440.60660.87621.3273
3.3UCI基准数据集
为了进一步评估本文算法的有效性,本文测试了10
组UCI数据集:Diabetes、ConcreteSlumpTest、GPS
Trajectory、servo、WisconsinBreastCancer、Autoprice、
ComputerHardware、ConventionalandSocialMedia
Movies、YachtHydrodynamics、BostonHouse,更详细的
数据信息见表2。
表210组UCI数据集的详细信息
数据集简写样本数属性数
DiabetesDiabetes433
ConcreteSlumpTestSlump10310
GPSTrajectoryGPS1369
ServoServo1673
WisconsinBreastCancerPrognosticBreast19816
AutopriceAuto20516
ComputerHardwareComputer2096
ConventionalandSocialMediaMovieCSMM23112
YachtHydrodynamicsYacht3087
BostonHouseBoston50614
首先本文对数据集进行了预处理,即若数据集中有
缺失项,将缺失项用0补齐,并对数据集进行归一化处
理,使数据集中的每个值都在区间[−1,1]内。实验中,
对数据集进行了10次十折交叉,并将10次结果的平均
值记录在表中。
2021,57(7)
75
表3给出了相应的数值结果。通过表3可以看出,
本文的方法在大部分数据集上都有较小的平均绝对误
差、均方根误差和较大的决定系数值,尤其是Slump、
Computer数据集。产生这一现象的原因是因为
ε
-无核
软二次曲面支持向量回归机采用
ε
-不敏感损失函数,
而非对称
ν
-无核二次曲面支持向量回归机使用Pinball
损失函数,它给予不同位置的样本点不同的惩罚,更具
有灵活性。而非对称
ν
-支持向量回归机在不使用核函
数的情况下拟合的结果基本没有其他两种方法好。在
CSMM数据集上,本文的方法得到的平均绝对误差大于
ε
-无核软二次曲面支持向量回归机的值,但非对称
ν
-无
核二次曲面支持向量回归机的决定系数略大于其他两
种算法。同时,表3中还展示了本文提出的方法所需的
CPU时间与
ε
-无核软二次曲面支持向量回归机相近,
说明引入Pinball损失函数并不会增加计算负担。由此
可见本文提出的非对称
ν
-无核二次曲面支持向量回归
机具有较好的拟合性能。
表33种算法在10组UCI数据集上的计算结果
数据集算法
MAERMSE
R
2
时间/s
Asy-
ν
-SVR0.09010.09480.85360.4843
DiabetesSQSSVR0.08960.09580.91310.3097
Asy-
ν
-QSSVR0.08770.08620.92282.6204
Asy-
ν
-SVR0.05750.06190.75032.6204
SlumpSQSSVR0.02510.02760.97091.1006
Asy-
ν
-QSSVR0.01820.01940.98551.2774
Asy-
ν
-SVR0.14610.21480.35608.3663
GPSSQSSVR0.14260.21000.40572.1441
Asy-
ν
-QSSVR0.14230.21460.40622.1089
Asy-
ν
-SVR0.26500.33630.89645.6799
ServoSQSSVR0.26840.33980.91742.9443
Asy-
ν
-QSSVR0.26320.33690.93753.0100
Asy-
ν
-SVR0.09010.10320.87619.7452
BreastSQSSVR0.08880.10260.91343.3066
Asy-
ν
-QSSVR0.08810.10130.91673.5472
Asy-
ν
-SVR0.10980.13300.65219.7006
AutoSQSSVR0.09250.10331.06246.3588
Asy-
ν
-QSSVR0.08850.10531.22166.7594
Asy-
ν
-SVR0.02080.03040.92719.8437
ComputerSQSSVR0.01070.01110.98565.9407
Asy-
ν
-QSSVR0.00650.00750.99406.1630
Asy-
ν
-SVR0.13680.17160.885512.3613
CSMMSQSSVR0.11300.17080.89967.3762
Asy-
ν
-QSSVR0.13450.17150.92397.0530
Asy-
ν
-SVR0.18380.28520.476128.3118
YachtSQSSVR0.18440.28810.638320.2065
Asy-
ν
-QSSVR0.18900.28670.516420.6697
Asy-
ν
-SVR0.15550.17391.187785.2585
BostonSQSSVR0.12190.12691.055260.2725
Asy-
ν
-QSSVR0.10390.11581.256068.2300
由于本文的方法除了参数
ν
以外,还需要给定非对
称参数
p
,而参数
p
取不同的值,意味着给予
ε
带上方
762021,57(7)
ComputerEngineeringandApplications计算机工程与应用
和下方的样本点不同的惩罚。为了进一步说明本文的
方法中的参数
p
不会增加计算成本。本文分析了10组
UCI数据集在不同
p
值下的CPU时间。表4展示了每
个数据集在不同
p
值的CPU时间的平均值。从表4中
可以看出,非对称
ν
-无核二次曲面支持向量回归机在
不同的参数
p
下,所需的CPU时间相差不大,这也说明
参数
p
的引入不会增加计算成本。
如图3展示了非对称
ν
-无核二次曲面支持向量回
归机在不同
p
值下的平均绝对误差。这4幅图分别是数
据集Computer、Slump、Breast、CSMM。显然,图(a)中
当
p=0.44
时有最小的平均绝对误差值,图(b)当
p=0.68
时有最小的平均绝对误差值,图(c)当
p=0.15
小的平均绝对误差值。因此,通过图3可以看出对于不
同的数据集,
p
值也不同,这也进一步说明本文的方法
具有更好的灵活性。要想获得更好的拟合结果,需要
对不同的数据集选择合适的参数
p
。事实上,当
p=0.5
时,本文的方法就退化成了对称
ν
-无核二次曲
面支持向量回归机。
4结论
针对回归问题,本文提出了非对称
ν
-无核二次曲
面支持向量回归机(Asy-
ν
-QSSVR)。该算法引入Pin-
ball损失函数,通过不对称参数
p
,使得对
ε
带上方和下
方样本点给予不同的惩罚,得到更优的回归函数,从而
让本文的方法更具有灵活性。进一步,本文通过理论证
s
p=0.60p=0.80p=0.50p=0.55
时有最小的平均绝对误差值,图(d)当
p=0.45
时有最
表4
数据集
Diabetes
Slump
GPS
Servo
Breast
Auto
Computer
CSMM
Yacht
Boston
7.8
7.6
7.4
7.2
M
A
E
/
1
0
−
3
7.0
6.8
6.6
6.4
6.2
6.0
5.8
0.10.20.30.40.5
p
0.60.70.80.9
p=0.20p=0.40p=0.45
10组数据集在不同的
p
值所需的CPU时间
0.3203
1.0464
3.4221
3.7987
4.5788
5.9362
6.2711
7.6785
19.3858
65.3628
0.3027
1.0051
3.1455
3.7294
4.5451
6.0726
6.0038
7.7527
20.5116
67.5480
0.3091
1.0987
2.9330
3.5679
4.3406
6.2471
6.2407
7.7294
20.1796
66.9396
55
50
45
M
A
E
/
1
0
−
3
40
35
30
25
20
0.10.20.30.40.5
p
0.60.70.8
0.2066
1.0201
3.6554
3.7904
4.2402
6.5163
6.1624
7.2009
20.7019
67.4590
0.3239
1.0549
3.5275
3.7927
4.3727
6.2989
6.2688
7.2970
18.4619
64.8851
0.3058
1.0211
3.3686
3.9129
4.4547
6.1034
6.2539
7.2219
20.1903
66.2174
0.3213
1.0348
3.6464
3.8183
4.8259
6.2860
6.2746
7.0314
20.8781
62.5979
0.9
(a)Computer数据集
91.5
91.0
90.5
90.0
M
A
E
/
1
0
−
3
89.5
89.0
88.5
88.0
87.5
87.0
86.5
0.10.20.30.40.5
p
0.60.70.80.9
M
A
E
/
1
0
−
3
100
99
98
97
96
95
94
93
92
0.10.2
(b)Slump数据集
0.30.40.5
p
0.60.70.80.9
(c)Breast数据集
图3
(d)CSMM数据集
4个数据集在不同
p
值下的平均绝对误差
马梦萍,等:非对称
ν
-无核二次曲面支持向量回归机
明,给出了参数
p
和
ν
控制位于
ε
带上方和下方的错误
样本点数的上界,以及当
p=0.5
时,参数
ν
能够调节支
持向量在总样本数中的占比,此时本文的算法就退化成
了对称
ν
-无核二次曲面支持向量回归机。除此之外,
与非对称
ν
-支持向量回归机相比,本文的方法在不使
用核函数的情况下可得到较好的非线性拟合函数且不
损失回归函数的可解释性。通过数值实验可以看出,本
文的非对称
ν
-无核二次曲面支持向量回归机具有更好
地拟合性能,且参数
p
不会增加计算成本。
参考文献:
[1]DRUCKERH,WUDH,tvector
machinesforspamcategorization[J].IEEETransactionson
Networks,1999,10(5):1048-1054.
[2]BOSERB,GUYONI,ingalgorithm
foroptimalmarginclassifiers[C]//Proceedingsofthe
AnnualWorkshoponComputationalLearningTheory,
1992:144-152.
[3]QIZQ,TIANYJ,twinsupportvector
machineforpatternclassification[J].PatternRecognition,
2013,46(1):305-316.
[4]CHENSG,WUXJ,typreservingprojection
leastsquarestwinsupportvectormachineforpattern
classsification[J].PatternRecognition,2020,23(1):1-13.
[5]HONGX,MITCHELLR,basisfunc-
tionbasedsparseleastsquaressupportvectorregression[J].
Neurocomputing,2019,330(22):394-402.
[6]XUYT,LIXY,PANXL,tric
ν
-twin
supportvectorregression[J].NeuralComputandApplic,
2018,30(2):3799-3814.
[7]WANGZ,SHAOYH,BAIL,pportvector
2021,57(7)
77
machineforclustering[J].IEEETranscationsonNeural
Network,2015,26(10):2583-2588.
[8]HENRIQUEBM,SOBEREIROVA,
pricepredictionusingsupportvectorregressionondaily
anduptotheminuteprices[J].TheJournalofFinance
andDataScience,2018,4(3):183-202.
[9]JAYADEVARK,rizedleastsquares
fuzzysupportvectorregressionforfinancialtimeseries
forecasting[J].ExpertSystAppl,2009,36(1):132-138.
[10]DEISSL,MARGENOTAJ,CULMANSW,
supportvectormachinesregressionmodelsimproves
predictionaccuracyofsoilpropertiesinMIRspectros-
copy[J].Geoderma,2020,365:114227.
[11]ticallearningtheory[J].Technometrics,
1999,41(4):377-378.
[12]tickernel-freenon-linearsupportvector
machine[J].JournalofGlobalOptimization,2007,41(1):
15-30.
[13]SCHÖLKOPFB,SMOLAAJ,WILLIAMSONRC,etal.
Newsupportvectoralgorithms[J].NeuralComput,2000,
12(5):1207-1245
[14]邓乃扬,田英杰.数据挖掘中的新方法一支持向量机[M].
北京:科学出版社,2004:245-259.
[15]HUANGXL,SHIL,PELCKMANSK,tric
ν
-tubesupportvectorregression[J].ComputStatData
Anal,2014,77:371-382.
[16]马梦萍.无核二次曲面支持向量回归机研究[D].乌鲁木
齐:新疆大学,2020.
[17]:Anefficienttwinsupportvector
machineforregression[J].NeuralNetwork,2010,23(3):
365-372.
发布者:admin,转转请注明出处:http://www.yc00.com/web/1714142301a2389577.html
评论列表(0条)