2024年3月31日发(作者:)
云斑斜线天蛾在我国的适生性及限制性环境
因子分析
作者:刘博 王晔楠 唐超 刘丽 马光昌 彭正强 阎伟
来源:《热带作物学报》2021年第12期
摘 要:云斑斜线天蛾是一种为害抗风桐的迁飞性昆虫,在我国西沙群岛多个岛屿发生。
阐明云斑斜线天蛾在我国的适生区分布及其主要限制环境因子,可为该害虫扩散预警与防控提
供理论依据。本文利用MaxEnt模型对云斑斜线天蛾在我国的潜在适生区进行预测,通过调整
调控倍频和特征组合参数建立最优模型,使用刀切法及环境变量响应曲线对影响云斑斜线天蛾
分布的环境因子进行评估。结果表明:云斑斜线天蛾在我国的潜在适生区位于海南、台湾、广
东、广西、云南、贵州、湖南、江西、福建、浙江、安徽、湖北、四川、重庆、西藏;最冷月
最低温(bio06)、昼夜温差月均值(bio02)、最暖季降水量(bio18)是影响云斑斜线天蛾潜
在地理分布的主导环境因子。云斑斜线天蛾在我国南海诸岛具有较高危险性,建议建立监测预
警与防控系统,将该害虫控制在合理水平。
关键词:云斑斜线天蛾;MaxEnt模型;适生区;南海诸岛;抗风桐
中图分类号:S31 文献标识码:A
Abstract: Hippotion velox is a migratory insect that damages Pisonia grandis. It occurs in many
islands of China Paracel Islands. MaxEnt model was used to to clarify the potential suitable area and
the main environmental factors of H. velox in China and to provide a theoretical basis for the early
warning and prevention of the insect. An optimal model by adjusting the regularization multiplier and
feature combination parameters was established. The environmental factors affecting the distribution
of H. velox were evaluated using the jackknife method and the response curve of environmental
variables. The potential suitable area of H. velox are distributed in Hainan, Taiwan, Guangdong,
Guangxi, Yunnan, Guizhou, Hunan, Jiangxi, Fujian, Zhejiang, Anhui, Hubei,
Sichuan, Chongqing, Tibet. The min temperature of the coldest month (bio06), the mean
diurnal range (bio02) and the precipitation of warmest quarter (bio18) are the dominant
environmental factors affecting the potential suitable area of H. velox. H. velox has a high risk in the
South China Sea islands. It is recommended to establish an early warning and control system to to
control the pest at a reasonable level.
Keywords: Hippotion velox; MaxEnt model; potential suitable area; South China Sea Islands;
Pisonia grandis
DOI: 10.3969/.1000-2561.2021.12.027
云斑斜线天蛾[Hippotion velox (Fabricius, 1793)]属鳞翅目(Lepidoptera)天蛾科
(Sphingidae),是一种主要分布于亚洲和澳洲热带、亚热带地区的活跃的迁徙害虫[1]。目前
已知的斜线天蛾幼虫寄主植物主要为紫茉莉科(Nyctaginaceae)避霜花属(Pisonia)、黄细心
属(Boerhavia)、叶子花属(Bougainvillea),天南星科(Araceae)海芋属(Alocasia)、芋
属(Colocasia),十字花科(Brass¬icaceae)芸薹属(Brassica),旋花科(Convol¬vulaceae)
虎掌藤属(Ipomoea)及茜草科(Ru¬biaceae)巴戟天属(Morinda)等多种植物,如:抗风桐
(Pisonia grandis)、腺果藤(Pisonia aculeata)、胶果木(Pisonia umbellifera)、Pisonia
morindifolia、叶子花(Bougainvillea spectabilis)、热亚海芋(Alocasia macrorrhizos)、番薯
(Ipomoea batatas)、海滨木巴戟(Morinda citrifolia)等[2-12]。云斑斜线天蛾在全球分布于
中国(海南、广东、台湾、香港、广西、云南、贵州、四川)、日本、越南、泰國、缅甸、马
来西亚、菲律宾、印度尼西亚、印度、斯里兰卡、澳大利亚、新喀里多尼亚、巴布亚新几内
亚、所罗门群岛、北马里亚纳群岛、关岛、帕劳、斐济、瓦努阿图[13-14]。
抗风桐(Pisonia grandis)属紫茉莉科常绿乔木,是西沙群岛自然森林群落的第一优势种,
在多个岛屿上都有分布,常形成纯林,其生长速度快,断枝可再植,在防风、海岸固沙以及海
岛植被恢复方面具有重要作用[15]。在澳大利亚昆士兰州图勒加和北领地达尔文,云斑斜线天
蛾为害会导致Pisonia和Bougainvillea属寄主植物不同程度的落叶;在澳大利亚昆士兰州桅顶
岛、东北先驱礁、东南马格德莱恩礁等岛礁抗风桐林爆发,会造成抗风桐完全脱叶,其危害爆
发呈现一定的周期性[9]。云斑斜线天蛾在我国西沙群岛和东沙群岛主要为害抗风桐和海滨木
巴戟,并在东岛、永兴岛、赵述岛、晋卿岛、珊瑚岛、琛航岛、广金岛、金银岛、中建岛、东
沙岛等多个岛屿有分布[16]。该虫大发生时,会导致岛内抗风桐树叶全部被食光,对岛屿生态
景观及生态系统稳定造成破坏。周先涌[17]于2017—2018年使用高空测报灯系统对永兴岛空中
昆虫进行监测调查,根据总的诱虫量、恒有指数和年季间种群动态情况,认为云斑斜线天蛾在
永兴岛属于关键性害虫。云斑斜线天蛾大发生呈现一定的周期性,但目前对该虫在我国的适生
环境、迁徙特点及成灾机制知之甚少,亟需进行相关研究工作。分析云斑斜线天蛾在我国的适
生性,对该虫的风险性评估、扩散预警与防控具有重要意义。
MaxEnt模型是一种基于最大熵理论预测物种地理分布的生态位评价模型[18]。因其具有所
需样本量小、预测精度高等优点被广泛应用于外来入侵物种潜在分布区的研究[19-20]。本文利
用MaxEnt模型对云斑斜线天蛾在我国的潜在适生区进行预测,通过调整调控倍频和特征组合
参数建立最优模型,使用刀切法及环境变量响应曲线对影响云斑斜线天蛾分布的环境因子进行
评估,以期为该虫的早期预警、风险评估、扩散与防控提供数据支撑。
1 材料与方法
1.1 数据收集
分布数据:通过全球生物多样性信息服务网络平台(Global Biodiversity Information
Facility, GBIF)物种分布信息数据下载、国内外公开发表文献查阅及实地调查的方式,获得
斜线天蛾在全球分布点数据[13]。
环境数据:从世界气象数据库(Worldclim, https:///)下载全球气候
数据,该数据共包含1970—2000年的19个生物气候变量,版本为Version 2.0,空间分辨率为
5 min(~10 km)。
地图数据:中国国界和省级行政区划图矢量底图(1∶4 000 000)来源于国家基础地理信
息中心(http:///)。
1.2 数据处理
1.2.1 分布数据 通过全球生物多样性信息服务网络平台等方式收集的物种分布数据,由于
采集者与采集时间不同、物种分布地区的易到达程度、人为研究偏向性等因素会造成一定程度
的采样偏差,这些分布数据可以造成分布模型的不确定性[21]。为了在一定程度上消除采样偏
差对预测模型的影响,首先去除重合及不准确的分布点,然后在每个5′×5′的空间栅格数据中
只保留一个分布点,经过筛选最终获得104个云斑斜线天蛾分布点用于模型预测。将分布数据
按照MaxEnt格式要求保存为.CSV文件备用。
1.2.2 环境数据 气候数据基于温度和降水,环境变量间存在自相关和多重线性重复等问题
[22],为减少变量间冗余信息对模拟结果的干扰,需对环境变量进行降维处理。使用R软件对
云斑斜线天蛾分布点环境变量数据进行Pearson相关性分析,对于∣r∣≥0.75的环境变量,参
考初次建模时环境变量贡獻率,只选择一个代表性的变量作为预测模型的环境变量[23]。经过
筛选最终使用昼夜温差月均值(bio02)、等温性(bio03)、最暖月最高温度(bio05)、最冷
月最低温度(bio06)、年降水量(bio12)、最干月降水量(bio14)、最暖季降水量(bio18)
等7个环境变量用于模型预测。
1.3 模型设置
MaxEnt采用机器学习算法,在默认参数条件下,模型对采样偏差敏感,易产生过度拟
合,需要采取适当的措施来限制模型的复杂性和过度拟合,提高模型转移能力[24]。利用
kuenm数据包调整MaxEnt模型调控倍频(regularization multiplier, RM)和特征组合(feature
combination, FC)参数,调控倍频设置为1~4,递增0.1,共31个水平,特征选择线性
(linear-L)、二次型(quadratic-Q)、乘积型(product-P)、阈值型(threshold-T)、片段化
(hinge-H)5种参数,31种特征组合,分析各种参数条件下模型的复杂度,选择最优组合参
数用于模型预测[25]。根据最佳模型标准选择统计上显著、低遗漏率及低ΔAICc值的候选模
型,最终确定调控倍频1.5与特征组合LQP为最优模型参数。将筛选处理后的分布数据和环境
变量文件导入MaxEnt软件,设置线性、二次型、乘积型特征参数,调控倍频设置1.5。随机
选取25%的分布点作为测试集,剩余的75%分布点作为训练集,重复训练次数(replicates)设
置为10,重复运行模式选择“Bootstrap”;创建响应曲线(create response curves)、绘制变量重
要性刀切图(do jackknife to measure variable importance),预测结果使用“Logistic”格式和“asc”
文件类型输出。
1.4 模型评价
ROC曲线(receiver operating characteristic curve)以真阳性率为纵坐标,假阳性率为横坐
标所形成的曲线,曲线分析通过改变阈值,获得多对真(假)阳性率值。AUC(area under the
ROC curve)值是ROC曲线与横坐标围成的面积,AUC值越大表示与随机分布相距越远,环
境变量与预测的物种地理分布模型之间的相关性越大,模型预测效果越好,AUC值不受阈值
影响,评价更客观[19]。ROC曲线的评估标准为:AUC值低于0.5,失败;0.5~0.7,较差;0.7~
0.9,一般;0.9~1.0,很好[26]。
遗漏率(omission rate, OR)是指测试样本中没有被正确分类的异常样本数与测试样本中
异常样本总数的百分比,其值越小表示预测准确性越高[27]。遗漏率提供模型差别和过度拟合
的信息,对使用的数据在特定的阈值上进行评估。根据累积阈值的定义,良好的模型,测试遗
漏率应该与预测遗漏率保持一致,如果测试遗漏率过高或低于理论遗漏率,说明用于测试和训
练的数据是不独立的,建模数据存在空间自相关[28]。通过计算最低存在阈值(lowest presence
threshold)遗漏率OR0和第10百分位存在阈值(10th percentile presence threshold)遗漏率
OR10来评价模型灵敏度。理想模型OR0和OR10值分别为0和0.1,超过理想模型OR值,则
认为模型存在过度拟合[29]。
MaxEnt模型是一种基于最大熵理论预测物种地理分布的生态位评价模型[18]。因其具有所
需样本量小、预测精度高等优点被广泛应用于外来入侵物种潜在分布区的研究[19-20]。本文利
用MaxEnt模型对云斑斜线天蛾在我国的潜在适生区进行预测,通过调整调控倍频和特征组合
参数建立最优模型,使用刀切法及环境变量响应曲线对影响云斑斜线天蛾分布的环境因子进行
评估,以期为该虫的早期预警、风险评估、扩散与防控提供数据支撑。
1 材料与方法
1.1 数据收集
分布数据:通过全球生物多样性信息服务网络平台(Global Biodiversity Information
Facility, GBIF)物种分布信息数据下载、国内外公开发表文献查阅及实地调查的方式,获得
斜线天蛾在全球分布点数据[13]。
环境数据:从世界气象数据库(Worldclim, https:///)下载全球气候
数据,该数据共包含1970—2000年的19个生物气候变量,版本为Version 2.0,空间分辨率为
5 min(~10 km)。
地图数据:中国国界和省级行政区划图矢量底图(1∶4 000 000)来源于国家基础地理信
息中心(http:///)。
1.2 数据处理
1.2.1 分布数据 通过全球生物多样性信息服务网络平台等方式收集的物种分布数据,由于
采集者与采集时间不同、物种分布地区的易到达程度、人为研究偏向性等因素会造成一定程度
的采样偏差,这些分布数据可以造成分布模型的不确定性[21]。为了在一定程度上消除采样偏
差对预测模型的影响,首先去除重合及不准确的分布点,然后在每个5′×5′的空间栅格数据中
只保留一个分布点,经过篩选最终获得104个云斑斜线天蛾分布点用于模型预测。将分布数据
按照MaxEnt格式要求保存为.CSV文件备用。
1.2.2 环境数据 气候数据基于温度和降水,环境变量间存在自相关和多重线性重复等问题
[22],为减少变量间冗余信息对模拟结果的干扰,需对环境变量进行降维处理。使用R软件对
云斑斜线天蛾分布点环境变量数据进行Pearson相关性分析,对于∣r∣≥0.75的环境变量,参
考初次建模时环境变量贡献率,只选择一个代表性的变量作为预测模型的环境变量[23]。经过
筛选最终使用昼夜温差月均值(bio02)、等温性(bio03)、最暖月最高温度(bio05)、最冷
月最低温度(bio06)、年降水量(bio12)、最干月降水量(bio14)、最暖季降水量(bio18)
等7个环境变量用于模型预测。
1.3 模型设置
MaxEnt采用机器学习算法,在默认参数条件下,模型对采样偏差敏感,易产生过度拟
合,需要采取适当的措施来限制模型的复杂性和过度拟合,提高模型转移能力[24]。利用
kuenm数据包调整MaxEnt模型调控倍频(regularization multiplier, RM)和特征组合(feature
combination, FC)参数,调控倍频设置为1~4,递增0.1,共31个水平,特征选择线性
(linear-L)、二次型(quadratic-Q)、乘积型(product-P)、阈值型(threshold-T)、片段化
(hinge-H)5种参数,31种特征组合,分析各种参数条件下模型的复杂度,选择最优组合参
数用于模型预测[25]。根据最佳模型标准选择统计上显著、低遗漏率及低ΔAICc值的候选模
型,最终确定调控倍频1.5与特征组合LQP为最优模型参数。将筛选处理后的分布数据和环境
变量文件导入MaxEnt软件,设置线性、二次型、乘积型特征参数,调控倍频设置1.5。随机
选取25%的分布点作为测试集,剩余的75%分布点作为训练集,重复训练次数(replicates)设
置为10,重复运行模式选择“Bootstrap”;创建响应曲线(create response curves)、绘制变量重
要性刀切图(do jackknife to measure variable importance),预测结果使用“Logistic”格式和“asc”
文件类型输出。
1.4 模型评价
ROC曲线(receiver operating characteristic curve)以真阳性率为纵坐标,假阳性率为横坐
标所形成的曲线,曲线分析通过改变阈值,获得多对真(假)阳性率值。AUC(area under the
ROC curve)值是ROC曲线与横坐标围成的面积,AUC值越大表示与随机分布相距越远,环
境变量与预测的物种地理分布模型之间的相关性越大,模型预测效果越好,AUC值不受阈值
影响,评价更客观[19]。ROC曲线的评估标准为:AUC值低于0.5,失败;0.5~0.7,较差;0.7~
0.9,一般;0.9~1.0,很好[26]。
遗漏率(omission rate, OR)是指测试样本中没有被正确分类的异常样本数与测试样本中
异常样本总数的百分比,其值越小表示预测准确性越高[27]。遗漏率提供模型差别和过度拟合
的信息,对使用的数据在特定的阈值上进行评估。根据累积阈值的定义,良好的模型,测试遗
漏率应该与预测遗漏率保持一致,如果测试遗漏率过高或低于理论遗漏率,说明用于测试和训
练的数据是不独立的,建模数据存在空间自相关[28]。通过计算最低存在阈值(lowest presence
threshold)遗漏率OR0和第10百分位存在阈值(10th percentile presence threshold)遗漏率
OR10来评价模型灵敏度。理想模型OR0和OR10值分别为0和0.1,超过理想模型OR值,则
认为模型存在过度拟合[29]。
MaxEnt模型是一种基于最大熵理论预测物种地理分布的生态位评价模型[18]。因其具有所
需样本量小、预测精度高等优点被广泛应用于外来入侵物种潜在分布区的研究[19-20]。本文利
用MaxEnt模型对云斑斜线天蛾在我国的潜在适生区进行预测,通过调整调控倍频和特征组合
参数建立最优模型,使用刀切法及环境变量响应曲线对影响云斑斜线天蛾分布的环境因子进行
评估,以期为该虫的早期預警、风险评估、扩散与防控提供数据支撑。
1 材料与方法
1.1 数据收集
分布数据:通过全球生物多样性信息服务网络平台(Global Biodiversity Information
Facility, GBIF)物种分布信息数据下载、国内外公开发表文献查阅及实地调查的方式,获得
斜线天蛾在全球分布点数据[13]。
环境数据:从世界气象数据库(Worldclim, https:///)下载全球气候
数据,该数据共包含1970—2000年的19个生物气候变量,版本为Version 2.0,空间分辨率为
5 min(~10 km)。
地图数据:中国国界和省级行政区划图矢量底图(1∶4 000 000)来源于国家基础地理信
息中心(http:///)。
1.2 数据处理
1.2.1 分布数据 通过全球生物多样性信息服务网络平台等方式收集的物种分布数据,由于
采集者与采集时间不同、物种分布地区的易到达程度、人为研究偏向性等因素会造成一定程度
的采样偏差,这些分布数据可以造成分布模型的不确定性[21]。为了在一定程度上消除采样偏
差对预测模型的影响,首先去除重合及不准确的分布点,然后在每个5′×5′的空间栅格数据中
只保留一个分布点,经过筛选最终获得104个云斑斜线天蛾分布点用于模型预测。将分布数据
按照MaxEnt格式要求保存为.CSV文件备用。
1.2.2 环境数据 气候数据基于温度和降水,环境变量间存在自相关和多重线性重复等问题
[22],为减少变量间冗余信息对模拟结果的干扰,需对环境变量进行降维处理。使用R软件对
云斑斜线天蛾分布点环境变量数据进行Pearson相关性分析,对于∣r∣≥0.75的环境变量,参
考初次建模时环境变量贡献率,只选择一个代表性的变量作为预测模型的环境变量[23]。经过
筛选最终使用昼夜温差月均值(bio02)、等温性(bio03)、最暖月最高温度(bio05)、最冷
月最低温度(bio06)、年降水量(bio12)、最干月降水量(bio14)、最暖季降水量(bio18)
等7个环境变量用于模型预测。
1.3 模型设置
MaxEnt采用机器学习算法,在默认参数条件下,模型对采样偏差敏感,易产生过度拟
合,需要采取适当的措施来限制模型的复杂性和过度拟合,提高模型转移能力[24]。利用
kuenm数据包调整MaxEnt模型调控倍频(regularization multiplier, RM)和特征组合(feature
combination, FC)参数,调控倍频设置为1~4,递增0.1,共31个水平,特征选择线性
(linear-L)、二次型(quadratic-Q)、乘积型(product-P)、阈值型(threshold-T)、片段化
(hinge-H)5种参数,31种特征组合,分析各种参数条件下模型的复杂度,选择最优组合参
数用于模型预测[25]。根据最佳模型标准选择统计上显著、低遗漏率及低ΔAICc值的候选模
型,最终确定调控倍频1.5与特征组合LQP为最优模型参数。将筛选处理后的分布数据和环境
变量文件导入MaxEnt软件,设置线性、二次型、乘积型特征参数,调控倍频设置1.5。随机
选取25%的分布点作为测试集,剩余的75%分布点作为训练集,重复训练次数(replicates)设
置为10,重复运行模式选择“Bootstrap”;创建响应曲线(create response curves)、绘制变量重
要性刀切图(do jackknife to measure variable importance),预测结果使用“Logistic”格式和“asc”
文件类型输出。
1.4 模型评价
ROC曲线(receiver operating characteristic curve)以真阳性率为纵坐标,假阳性率为横坐
标所形成的曲线,曲线分析通过改变阈值,获得多对真(假)阳性率值。AUC(area under the
ROC curve)值是ROC曲线与横坐标围成的面积,AUC值越大表示与随机分布相距越远,环
境变量与预测的物种地理分布模型之间的相关性越大,模型预测效果越好,AUC值不受阈值
影响,评价更客观[19]。ROC曲线的评估标准为:AUC值低于0.5,失败;0.5~0.7,较差;0.7~
0.9,一般;0.9~1.0,很好[26]。
遗漏率(omission rate, OR)是指测试样本中没有被正确分类的异常样本数与测试样本中
异常样本总数的百分比,其值越小表示预测准确性越高[27]。遗漏率提供模型差别和过度拟合
的信息,对使用的数据在特定的阈值上进行评估。根据累积阈值的定义,良好的模型,测试遗
漏率应该与预测遗漏率保持一致,如果测试遗漏率过高或低于理论遗漏率,说明用于测试和训
练的数据是不独立的,建模数据存在空间自相关[28]。通过计算最低存在阈值(lowest presence
threshold)遗漏率OR0和第10百分位存在阈值(10th percentile presence threshold)遗漏率
OR10来评价模型灵敏度。理想模型OR0和OR10值分别为0和0.1,超过理想模型OR值,则
认为模型存在过度拟合[29]。
MaxEnt模型是一种基于最大熵理论预测物种地理分布的生态位评价模型[18]。因其具有所
需样本量小、预测精度高等优点被广泛应用于外来入侵物种潜在分布区的研究[19-20]。本文利
用MaxEnt模型对云斑斜线天蛾在我国的潜在适生区进行预测,通过调整调控倍频和特征组合
参数建立最优模型,使用刀切法及环境变量响应曲线对影响云斑斜线天蛾分布的环境因子进行
评估,以期为该虫的早期预警、风险评估、扩散与防控提供数据支撑。
1 材料与方法
1.1 数据收集
分布数据:通过全球生物多样性信息服务网络平台(Global Biodiversity Information
Facility, GBIF)物种分布信息数据下载、国内外公开发表文献查阅及实地调查的方式,获得
斜线天蛾在全球分布点数据[13]。
环境数据:从世界气象数据库(Worldclim, https:///)下载全球气候
数据,该数据共包含1970—2000年的19个生物气候变量,版本为Version 2.0,空间分辨率为
5 min(~10 km)。
地图数据:中国国界和省级行政区划图矢量底图(1∶4 000 000)来源于国家基础地理信
息中心(http:///)。
1.2 数据处理
1.2.1 分布数据 通过全球生物多样性信息服务网络平台等方式收集的物种分布数据,由于
采集者与采集时间不同、物种分布地区的易到达程度、人为研究偏向性等因素会造成一定程度
的采样偏差,这些分布数据可以造成分布模型的不确定性[21]。为了在一定程度上消除采样偏
差对预测模型的影响,首先去除重合及不准确的分布点,然后在每个5′×5′的空间栅格数据中
只保留一个分布点,经过筛选最终获得104个云斑斜线天蛾分布点用于模型预测。将分布数据
按照MaxEnt格式要求保存为.CSV文件备用。
1.2.2 环境数据 气候数据基于温度和降水,环境变量间存在自相关和多重线性重复等问题
[22],为减少变量间冗余信息对模拟结果的干扰,需对环境变量进行降维处理。使用R软件对
云斑斜线天蛾分布点环境变量数据进行Pearson相关性分析,对于∣r∣≥0.75的环境变量,参
考初次建模时环境变量贡献率,只选择一个代表性的变量作为预测模型的环境变量[23]。经过
筛选最终使用昼夜温差月均值(bio02)、等温性(bio03)、最暖月最高温度(bio05)、最冷
月最低温度(bio06)、年降水量(bio12)、最干月降水量(bio14)、最暖季降水量(bio18)
等7个环境变量用于模型预测。
1.3 模型设置
MaxEnt采用机器学习算法,在默认参数条件下,模型对采样偏差敏感,易产生过度拟
合,需要采取适当的措施来限制模型的复杂性和过度拟合,提高模型转移能力[24]。利用
kuenm数据包调整MaxEnt模型调控倍频(regularization multiplier, RM)和特征组合(feature
combination, FC)参数,调控倍频设置为1~4,递增0.1,共31个水平,特征选择线性
(linear-L)、二次型(quadratic-Q)、乘积型(product-P)、阈值型(threshold-T)、片段化
(hinge-H)5种参数,31种特征组合,分析各种参数条件下模型的复杂度,选择最优组合参
数用于模型预测[25]。根据最佳模型标准选择统计上显著、低遗漏率及低ΔAICc值的候选模
型,最终确定调控倍频1.5与特征组合LQP为最优模型参数。将筛选处理后的分布数据和环境
变量文件导入MaxEnt软件,设置线性、二次型、乘积型特征参数,调控倍频设置1.5。随机
选取25%的分布点作为测试集,剩余的75%分布点作为训练集,重复训练次数(replicates)设
置为10,重复运行模式选择“Bootstrap”;创建响应曲线(create response curves)、绘制变量重
要性刀切图(do jackknife to measure variable importance),预测结果使用“Logistic”格式和“asc”
文件类型输出。
1.4 模型评价
ROC曲线(receiver operating characteristic curve)以真阳性率为纵坐标,假阳性率为横坐
标所形成的曲线,曲线分析通过改变阈值,获得多对真(假)阳性率值。AUC(area under the
ROC curve)值是ROC曲线与横坐标围成的面积,AUC值越大表示与随机分布相距越远,环
境变量与预测的物种地理分布模型之间的相关性越大,模型预测效果越好,AUC值不受閾值
影响,评价更客观[19]。ROC曲线的评估标准为:AUC值低于0.5,失败;0.5~0.7,较差;0.7~
0.9,一般;0.9~1.0,很好[26]。
遗漏率(omission rate, OR)是指测试样本中没有被正确分类的异常样本数与测试样本中
异常样本总数的百分比,其值越小表示预测准确性越高[27]。遗漏率提供模型差别和过度拟合
的信息,对使用的数据在特定的阈值上进行评估。根据累积阈值的定义,良好的模型,测试遗
漏率应该与预测遗漏率保持一致,如果测试遗漏率过高或低于理论遗漏率,说明用于测试和训
练的数据是不独立的,建模数据存在空间自相关[28]。通过计算最低存在阈值(lowest presence
threshold)遗漏率OR0和第10百分位存在阈值(10th percentile presence threshold)遗漏率
OR10来评价模型灵敏度。理想模型OR0和OR10值分别为0和0.1,超过理想模型OR值,则
认为模型存在过度拟合[29]。
发布者:admin,转转请注明出处:http://www.yc00.com/web/1711896001a1973743.html
评论列表(0条)