仅存在预测 (MaxEnt) 的工作原理

仅存在预测 (MaxEnt) 工具使用最大熵方法 (MaxEnt) 来估算现象存在的概率。 该工具以字段、栅格或距离要素的形式使用已知的发生点和解释变量来估计在整个研究区域内的存在情况。 如果已知相应的解释变量,则可以使用经过训练的模型来预测不同数据中的存在情况。 与假设或明确要求定义缺失位置的其他方法不同,仅存在预测可应用于仅已知事件存在的预测问题。

仅存在预测 (MaxEnt) 总览图

可能的应用

虽然常见用例通常与因生态和保护目的而对物种存在进行建模有关,但存在预测问题可以跨越多种领域和应用:

  • 一位野生动物生态学家采集了观测到的植物物种存在位置的外业数据。 他需要估计该物种在更广泛的研究区域中的存在情况。 使用已知的存在位置并提供潜在因素作为栅格,生态学家可以对物种的存在进行建模并创建最有可能发现该物种的预测位置的地图。
  • 一位研究人员想了解气候变化对敏感物种栖息地的影响。 他使用已知发生地点和一系列解释变量来模拟存在情况,包括各种与气候相关的因素,如温度和降水。 使用投影气候变化栅格表面,研究人员根据在解释变量中观察到的气候变化影响,对估算物种分布进行建模,并基于投影气候变化影响,接收对物种新栖息地的估算结果。
  • 洪水灾害分析员想要估计研究区域中飓风登陆后发生洪水的概率。 作为活动期间高分辨率航拍图像的补充,分析师使用空间分布的物理和社会经济特征以及众包数据来模拟洪水的存在。 分析师使用此模型来确定人们在飓风过后最有可能需要立即紧急援助的地方(Mobley 等人,2019)。
  • 流行病学家模拟新传染病的出现。 他们使用现有的已知病原体溢出位置和生态因素,如温度、降水、土地覆盖、归一化差异植被指数 (NDVI) 和日照持续时间作为模型中的预测因子。 该模型用于创建反映新传染病出现的适宜性的初步风险面(Du 等人, 2014)。

MaxEnt 概述

空间分析问题的一个方面侧重于建模和估算跨地理事件的发生情况。 虽然常见用例通常与因生态和保护目的而对物种存在进行建模有关,但存在预测问题可以跨越多种领域和应用。

在某些情况下,存在数据被记录为方形像元中存在事件的计数:每次观测都会增加其位置处的计数,并且可以使用多种建模方法来对此计数进行建模,例如广义线性回归工具中的泊松方法。 在其他情况下,在已知位置以指定的时间间隔记录明确的存在和不存在数据,例如记录不正常臭氧水平的空气质量监测站。 在这些情况下,建模存在和不存在是一个二元分类问题,可以从各种方法中受益,例如逻辑回归

在生态物种建模和其他几个领域的情况中,事件存在经常被记录但事件缺失却很少被记录,由于缺乏明确的缺失数据,因此使用多类预测方法对存在和缺失进行建模变得具有挑战性。

MaxEnt 不假设也不要求缺失数据。 MaxEnt 是一种从不完整信息中进行预测或推断的通用方法(Phillips 等人,2006)。 给定一组已知的存在位置和描述研究区域的给定解释变量,MaxEnt 对比存在位置和研究区域之间的条件以估算存在概率曲面。

MaxEnt 的核心是三个主要输入:

  • 已知存在点的位置。
  • 一个研究区域。
  • 解释变量或协变量,描述可能与整个研究区域的存在相关的环境因素。

研究区域定义了一个可能存在的景观,并且通常由一组未知的存在位置表示。 这些位置也称为背景点,MaxEnt 方法使用它们来对比存在位置和研究区域之间的条件以估计存在概率面。

存在概率区面具有多种形式,MaxEnt 将选择与其原来环境最相近的形式,并减少所有其他假设(或最大化其熵)。 “它与已知的一切一致,并慎重地避免假设任何未知事物” (Jaynes 1990)。

除了建模方法之外,MaxEnt 还包括执行输入数据准备、解释变量变换、输出数据准备和模型验证的步骤,因此其为对仅存在现象建模的稳健方法。

使用仅存在预测 (MaxEnt) 工具

仅存在预测工具整合了 MaxEnt 的数据准备、建模、变量选择和预测工作流的各个方面。 本部分提供了有关每个参数的重要信息,以帮助您创建更合适的模型。

指定已知的存在位置和背景点

仅存在预测需要输入数据来表示已知存在位置。 输入点要素参数用于指定具有这些位置的现有数据集。

输入点要素不包含背景点

如果输入点要素不包含背景点,则可以不选中包含背景点参数。

使用栅格像元自动创建背景点

如果未选中包含背景点参数,则该工具将使用研究区域中相交解释性训练栅格参数值的最粗糙的像元质心来自动创建背景点。

使用栅格像元自动创建背景点

可以使用输出训练要素参数来创建包含工具创建的背景点的输出。

输入点要素包含背景点

如果输入点要素包含背景点,则可以使用包含背景点存在指示器字段参数,并使用字段值将每个位置指定为存在 (1) 或背景 (0)。

在输入点要素中使用背景点

背景点与存在点的比例对预测结果有显著影响。 无论是在输入点要素中提供背景点还是通过工具创建背景点,均建议使用不同数量的背景点测试和比较模型的分类诊断。 可以使用空间细化参数来减少分析中的背景点数量。 有关更多详细信息,请参阅定义研究区域使用空间细化减少样本偏差部分。

注:

该工具需要在训练数据中至少有两个存在点和两个背景点来创建模型。

指定解释变量

除了已知的存在点和背景点之外,该工具还使用解释变量来创建预测模型。 可以通过三种方式指定解释变量:使用栅格、使用输入点要素中的字段和使用距离要素。 对于栅格和字段,解释变量可以是连续变量或分类变量。 对于分类解释变量,该工具要去每个类别至少具有三个数据点。

解释变量的三种类型:栅格、距离要素和字段

使用来自栅格的解释变量

您可以使用栅格来表示景观中的条件,这些条件可能有助于预测事件的存在。 例如,植物种类可能严重依赖于特定高程范围;因此,您可以使用高程栅格将高程值与模型中植物的存在位置相关联。

当栅格表示分类数据(例如土地利用覆被类别)时,选中分类框。

当输入点要素不包括背景点时,需要使用来自栅格的解释变量,因为研究区域中的每个像元都将用于创建背景点。

解释性训练栅格参数值的像元大小对处理时间有显著影响:分辨率越高,处理时间越长。 因此,该工具在感兴趣的域内将像元总数限制为 1 亿个。 可以使用重采样工具降低栅格的空间分辨率,从而减少像元并缩短处理时间。

使用来自字段的解释变量

使用解释训练变量参数指定在对现象进行建模时将其属性用作解释变量的字段。 此选项仅在输入点要素包含背景点且已选中包含背景点参数时可用。

使用分类复选框指定解释训练变量参数中提供的字段是否为分类字段。

使用距离要素的解释变量

使用解释训练距离要素参数指定与输入点要素的邻近分析将用作解释变量的要素。 此选项仅在输入点要素包含背景点且已选中包含背景点参数时可用。

通过计算从输入点要素给定的最近的要素的距离,可使用距离要素自动创建解释变量。 如果解释训练距离要素参数值为面要素或线要素,则距离属性将计算为要素对的最近线段之间的距离。 如果输入距离要素为面要素或线要素,则距离属性将计算为要素对的最近线段之间的距离。 面要素和线要素的距离计算方式不同;有关详细信息,请参阅邻域分析工具计算距离的方法

出于性能考虑,当输入点要素不包含背景点时,解释训练距离要素参数不可用。 但是,通过使用距离累积工具创建距离栅格,可以在使用仅存在点时使用距离要素。 距离栅格包含具有描述像元与指定数据源中最近要素之间距离的值的像元。 创建距离栅格后,可以将其用作仅存在输入点要素的解释训练栅格参数中的输入。

对模型输入执行数据准备

该工具包括为提供的输入点要素和解释变量准备数据的步骤。 数据准备包括使用基函数进行变量变换、指定研究区域以及使用空间细化减少采样偏差。

使用基函数变换解释变量

在 MaxEnt 中,将景观特征用作候选解释变量。 在某些情况下,促进存在的条件可能与事件的发生具有复杂的关系。 为便于将更复杂关系形式合并到模型中,该工具将使用基函数变换(或扩展)这些候选解释变量。

您可以使用解释变量扩展(基函数)参数在工具的一次运行中选择多个基函数,然后在模型中使用解释变量的所有变换版本。 通过规则化选择表现最佳的变量,规则化是一种在模型拟合和模型复杂性之间实现折衷的变量选择方法。

基函数包含五种类型,在尝试对复杂现象建模时提供了不同的考虑。

  • 原始(线性)- 将线性基函数应用于输入变量,可在不需要应用变换时使用。 这是默认选项。

    一个示例用例正在使用该工具,目的是对已知需要进入水流的物种的存在进行建模。 对与到河流的距离相对应的变量使用线性基函数允许模型估计物种存在与到水流的距离之间的线性关系。 在尝试更复杂的关系形式之前,所得系数可用于解释边际线性关系。

    当可解释性是模型中的优先事项时,可使用原始(线性)基函数。 由于未发生变换,因此线性方法是在系数对存在概率的影响的上下文中解释系数的最简便方法。

    线性基函数

    注:

    分类解释变量只允许使用原始(线性)基函数。 当同时应用连续解释变量和分类解释变量时,可以选择多个基函数,但分类变量将只应用原始(线性)基函数。

  • 平方(二次)- 通过对每个解释变量值进行平方对其进行变换,从而在解释变量和存在响应之间产生二次关系。 在某些领域,例如物种分布,物种对环境条件的响应通常是非线性和单模式的(Austin 2002,2007 年),二次形式可能最能代表这种关系。

    在某些情况下,虽然二次关系可能是解释变量与响应事件的关系所固有的,但输入点要素中的采样数据可能仅代表抛物线关系的一个方面。 例如,热带物种可能与温度存在抛物线关系:温度极低导致存在概率低,热带温度导致概率高,极热温度再次导致概率低。 如果该物种的采样数据不包含寒冷温度,则可以简单地用线性关系表示这种关系(Merow 等人,2013 年)。

    二次基函数

  • 成对交互(乘积)- 对解释变量执行成对乘法。 例如,如果选择了 A、B 和 C 三个变量,则此基函数将产生与 A x B、A x C 和 B x C 的结果相对应的变换变量。 这些变换后的变量通常称为交互项,并且可能是基于多个变量之间条件的复杂关系的有用表示。 例如,与单独使用每个变量相比,包含收入和距商店的距离的交互项可能更能预测客户光顾概率。

    虽然来自成对交互(乘积)方法的变换解释变量可能有助于对环境条件之间的交互进行建模,但由于交互项导致理解一个解释变量对另一个解释变量的影响具有挑战性,因此模型的可解释性难度可能更高。 这在评估每个解释变量的系数和部分响应图时最为重要。

    乘积基函数

    注:

    成对交互(乘积)选项仅在选择多个连续解释变量时可用。

  • 离散步长(阈值)- 通过应用逐步函数将连续解释变量转换为二进制解释变量:阈值以下的值赋值为 0,阈值以上的值赋值为 1。

    节数参数控制创建的阈值数量,然后使用每个阈值创建多个变换后的二进制解释变量。 在解释变量的最小值和最大值之间应用阈值以创建等长段。

    示例用例正在运行仅存在预测,目的是研究高温对发生情况的影响(例如:是否高于 32 摄氏度)。 使用阈值基函数,连续温度变量被分成 1(高于 32 度)和 0(低于 32 度)的值,并允许解释与存在相关的每个条件。

    阈值基函数

  • 平滑步长(铰链)- 将连续解释变量转换为两个段,一个静态段(全为 0 或 1)和一个线性函数(增加或减少),由称为节的阈值分隔。 这可以使用正向铰链(从最小值和节之间的 0 值开始,然后在节和最大值之间应用递增的线性函数)或反向铰链(从最小值和节之间的递减线性函数开始,然后节和最大值之间应用所有 1 值)来执行。

    节数参数控制生成的解释变量变换数量,从而生成 (节数 - 1) * 2 个变换的解释变量。 这个公式的原因是节数指定了解释变量中最小值和最大值之间使用的相等间隔数(从节数中减去一),并且创建了正向铰链变换变量和反向铰链变换变量(乘以 2)。

    一个示例用例正在运行该工具,目的是研究高温变化的影响(例如:将所有值保持在 32 摄氏度以上并忽略以下所有值)。 铰链基函数将允许变量保持节以上的变化(通过对 32 度以上的所有值应用线性函数),同时减少节以下所有数据的噪点(将所有 32 度以下的值转换为 0)。

    平滑步长(铰链)离散步长(阈值)选项是互斥的分段函数;当一个被选中时,将无法选中另一个。 选择其中一个时,建议多次测试模型运行情况,并调整节数参数值,以解释这些阈值如何帮助或阻碍模型。

    铰链基函数

    在尝试对促进现象存在的复杂条件进行建模时,该工具使用每个解释变量的多个转换版本。 例如,使用年平均温度来估计沙漠龟物种存在概率的模型可能会使用不同的变量扩展来描述温度与沙漠龟栖息地之间的复杂关系。

    年平均温度和物种存在的部分响应图

    上面的部分响应图显示了存在概率随年平均温度变化的边际响应。 在保持所有其他因素相同的情况下,出现概率如下:

    • 随着年平均温度在 0 到 15 摄氏度之间增加,呈线性增加
    • 在 15 至 21 摄氏度之间逐渐降低
    • 年平均温度值超过 21 摄氏度时迅速下降

    该工具使用多个基函数来生成最能代表此类关系的解释变量扩展,通过称为正则化的过程选择最有用的转换。

规则化

MaxEnt 可能容易过度拟合训练数据。 要减少此问题,该方法应用了一种减少大解释变量系数的规则化形式,强制模型专注于最重要的解释变量(Phillips 等人,2006 年)。

概念化规则化的一种方法是,提供给模型的所有解释变量共享有限的系数预算。 随着系数减少以满足预算,几个系数较低的解释变量减少为零,并将从模型中被移除。 这样,模型将保留更少的解释变量,从而仅保留在系数预算下仍能存在的系数足够高的变量。 通过减少解释变量的数量,可以减少模型过度拟合的可能性并且更容易解释。 根据简约性原则,对现象最简单的解释通常是最佳解释(Phillips 等人,2006 年)。

规则化具有帮助解决多重共线性的附加效果:随着相关解释变量的加入,现在单个变量将包含的总系数值将在多个相关变量之间共享,从而导致多重共线性变量的系数降低。 由于规则化会减少剩余系数值,因此多重共线变量系数更有可能减少为零并从模型中移除。

定义研究区域

当背景点不属于输入点要素并定义可能的存在位置时,必须指定研究区域。 可以使用研究区域参数的三个选项来定义研究区域:

  • 凸包 - 使用输入点要素的凸包。

    凸包研究区域

  • 栅格范围 - 解释训练栅格参数中提供的栅格相交的范围。

    栅格范围研究区域

  • 研究区域面 - 使用研究区域面参数中提供的自定义面要素类边界。

    自定义面研究区域

研究区域对模型的结果有重大影响:研究区域的范围决定了解释训练栅格中的栅格像元,这些栅格像元将用于创建背景点。 背景点建立了可能存在的环境条件,并与观测到存在的环境条件形成对比。 预测结果会随着背景点和存在点的比例变化而有所不同。

研究区域为模型建立了训练数据的范围。 此方案中的输入点要素表示观测到存在的位置,研究区域表示可能存在的位置(但不一定观测到存在)。 因此,建议分析的研究区域以收集到的存在点的调查设计为指导。 例如,如果存在数据采集调查彻底检查了 100 平方公里的区域,则可以使用描绘该区域的边界面作为研究区域。

在某些情况下,一组给定输入点要素的不同研究区域可能有助于探索现象的不同动态(Elith 等人,2011 年,51-52)。

使用空间细化减少样本偏差

当输入点要素中表示的采样区域表现出不同的空间集群时,就会出现采样偏差。 例如,数据采集调查通常在靠近道路、路径和其他有利于数据采集的条件下进行。 采样偏差的影响将导致旨在描绘某种现象存在的数据与显示存在适合数据采集条件的数据混淆。 采样偏差在大多数仅存在的数据集中是固有的,并且只有在最严格和结构化的调查设计中才能有所缓解。

空间细化是一种减少采样偏差对模型影响的技术;它从训练数据中移除存在点和背景点,从而实现点之间的最小指定距离。 通过减少彼此指定距离内的点数量,将减少模型训练数据中空间过采样的区域。

输入点空间细化

要使用空间细化,请选中应用空间细化参数并提供以下两个参数的值:

  • 最小最近邻距离 - 用于确定两个点之间的距离。
  • 细化迭代次数 - 指定尝试移除点以找到合适解决方案的次数。 在尝试了指定次数的空间细化运行后,将剩余点数最多的运行用于模型训练。

存在点和背景点都会发生空间细化,即使在使用仅存在数据的情况下由工具生成的背景点也是如此。 应用于背景点的空间细化与应用于存在点的空间细化分开发生,这可能导致存在点比最小最近邻距离更接近背景点。

应用于存在点和背景点的单独空间细化

当工具使用栅格单元创建背景点时,通过将栅格重新采样到最小最近邻距离参数值并将生成的栅格单元质心用作空间细化背景点来应用空间细化。

空间细化是一种有用的技术,它可以减少背景点数量,从而减少因像元计数较大的栅格而引起的问题。 无论栅格分辨率如何,根据指定的最小最近邻距离,细化后将留下大致相同数量的背景点。

空间细化不适用于最小最近邻距离值小于任意两点之间的最近距离(无论是来自输入点要素还是来自栅格单元质心)的情况,因为数据满足空间细化标准。

配置模型

该工具包含用于配置和调整模型的各种参数。 虽然运行该工具不需要使用所有参数,但了解模型的工作原理以及每个参数的使用方式可能会对工具在存在建模工作流中的效果产生重大影响。

设置存在与背景的相对信息权重

该工具使用存在与背景的相对权重参数来指定模型如何考虑背景点。

默认值 100 表示输入点要素中的存在点是存在信息的主要来源;每个背景点的发生是未知的,它们只能用于表示可能存在但未知的景观特征。 值为 1 表示背景点与存在点的意义相同;由于它们不是存在位置但同样有意义,因此它们代表已知的缺失位置。 同样可以使用作为缺失位置的背景点,并可以将其与存在位置结合使用,以创建估算存在和缺失的二元分类模型。

该值对模型的运行方式和工具的结果预测有很大影响。 当存在与背景的相对权重值接近 100 时,模型将应用 MaxEnt 方法的传统形式。 当值为 1 时,模型将平等对待每个存在点和背景点,类似于逻辑回归

建议在决定为存在与背景的相对权重参数选择 1 到 100 之间的适当值时,以领域专业知识为基础,因为其可以被视为研究区域中事件普遍性的表示。

使用链接函数和存在概率阈值来解释输出

模型的中间输出(不是由工具返回)是每个位置的相对发生率 (ROR)。 这个中间输出不代表发生概率;它对应于每个位置在整个研究区域促进存在的相对适宜性。 要将这些原始值转换为可以解释为存在概率和存在预测的值,可以使用存在概率变换(链接函数)存在概率中断值参数中分别指定的链接函数和中断值来转换这些值。

虽然链接函数主要用于将 MaxEnt 原始输出转换为可解释的存在概率,但它们也与考虑背景点的方式有关(真实背景与缺失)。 链接函数不直接影响模型的基础计算,但链接函数的输出将直接影响结果。

存在概率变换(链接函数)中提供了两个链接函数:

  • C-log-log - 将背景点视为未知现象存在的位置。 使用公式 1-exp(-exp(entropy + raw output)) 计算每个位置的存在概率。 这是默认设置。

  • 逻辑 - 将背景点视为表示现象缺失的位置。 基于此假设,选择此函数时,存在与背景的相对权重参数的值应接近 1。 此链接函数使用公式 1/(1+exp(-entropy- raw output)) 计算每个位置的存在概率。

链接函数的存在概率以 0 到 1 之间的值提供。 可以使用存在概率中断值参数来指定将位置分类为存在的概率阈值。 默认使用 0.5,大于或等于 0.5 的值将被归类为存在。 您可以输入一个介于 0.01 和 0.99 之间的值来设置自己的中断值。

将使用提供的中断值的分类结果与输入点要素中的已知存在点进行比较,并在地理处理消息和输出训练要素中提供诊断信息。

指定模型训练输出

该工具将输出组织为训练和预测输出。 主要区别在于训练输出对应于模型训练和选择中使用的数据,而预测输出对应于模型尚未暴露的数据。

输出训练要素

使用输出训练要素参数生成包含模型训练中使用的点的要素类。 此输出使用来自模型的分类与观测到的分类之间的比较来符号化每个训练点。

输出训练要素的符号系统和图例

输出训练要素中包含的点不一定与输入点要素中的点相同,因为使用仅存在数据时会生成背景点,并且空间细化可能会减少该模型训练中使用的点数。

输出训练要素包含三个图表:

  1. 分类结果百分比 - 用于使用训练要素中观测到的分类来评估正确预测的部分。

    分类结果百分比图表

  2. 按概率范围计算的存在和背景计数 - 用于比较模型的存在概率值分布与观测到的存在和背景分类的比较情况。

    按概率范围计算的存在和背景计数图表

  3. 按分类的存在概率分布 - 用于按分类名称查看存在概率范围的分布。

    按分类计算的存在概率分布图表

输出训练栅格

可以选择使用输出训练栅格创建栅格,从而将输入训练数据范围内每个像元的存在概率分为四类。 这仅在使用不包含背景点的输入点要素时可用。

输出训练栅格的范围对应于研究区域中解释训练栅格的交集。 默认像元大小是栅格输入的最大像元大小,可以使用像元大小环境进行修改。

输出训练栅格符号系统和图例

响应曲线表和灵敏度表

您可以使用输出响应曲线表参数来创建一个具有图表的表,从而可视化每个解释变量对预测存在的边际效应。 这也称为现象存在对每个解释变量的部分依赖性或部分响应。

连续变量的部分响应图表由多个图表组成;每个图表均可视化每个解释变量中的值变化对存在概率的影响,同时保持所有其他因素相同。

连续变量的部分响应图表

分类变量的部分响应图表是一个单条形图,显示每个解释变量类别存在的边际响应。

分类变量的部分响应图表

输出灵敏度表参数提供了一个包含两个图表的表:

  1. 遗漏率图表 - 用于评估被模型错误分类为不存在的已知存在点部分,将使用范围介于 0 和 1 之间的存在概率中断值。

    遗漏率图表

  2. ROC 图图表 - 用于比较正确分类的已知存在点部分(称为模型的灵敏度)和背景点中被分类为存在的部分。 与遗漏率图表相同,此比较将使用 0 和 1 之间的一系列存在概率中断值范围。

    ROC 图图表

应用模型进行预测

除了训练模型之外,仅存在预测工具还用于应用训练模型以使用预测选项参数类别中的参数来估计新位置的存在情况。

配置工具以使用新的输入预测要素进行预测

输入预测要素参数用于指定工具将应用训练模型来估计存在的位置。 输出预测要素参数指示包含应用于输入预测要素参数值的预测结果的输出。

对于模型训练中使用的每个解释变量,必须使用匹配解释变量匹配距离要素匹配解释栅格参数以字段、距离要素或栅格的形式指定匹配的解释变量。

预测数据中的值范围可能与训练数据中的值范围不同。 例如,用于训练模型的高程栅格可能包含 400 到 1000 米之间的值,但预测位置的相应高程栅格具有高程在 200 到 1200 米之间的区域。 虽然建议将预测位置的解释变量范围保持在训练数据中的范围内,但允许数据范围之外的预测参数允许模型外推并提供这些位置的估算值。 使用该工具的地理处理消息来诊断是否有任何解释变量范围超出了训练数据范围。

还可以使用输出预测栅格参数创建一个栅格,以包含应用于匹配解释栅格参数中提供的栅格相交范围内每个像元的模型预测结果。 使用此参数可提供跨可用于预测位置的环境条件范围的预测表面。

输出预测栅格符号系统和图例

输出预测栅格与输出训练栅格的不同之处在于,训练栅格仅针对模型中使用的训练数据的范围生成,而预测栅格是针对输入预测要素的范围及其与匹配解释栅格的交集生成的。

验证模型

该工具提供了帮助验证和评估模型的选项。 建议将这些选项与输出响应曲线表输出灵敏度表参数结合使用,以评估模型的质量和效用。

使用重采样和交叉验证

验证选项参数类别中的重采样方案组数参数指定是否应用模型的交叉验证。

如果选择随机重采样方案,该工具会将训练数据子集划分为指定数量的组。

使用随机组重采样方案

然后该工具开始对每个组进行迭代:选择当前组的数据作为验证子集,并选择所有剩余组的集体数据作为训练子集。

第一组的验证和训练子集

该工具使用组的训练子集创建模型,并预测每个验证要素的存在。 然后将预测结果与验证子集中的已知存在和背景名称进行比较。

该工具通过迭代并允许每个组担任验证子集的角色来继续此过程。 这个过程通常称为 K 折交叉验证,其中 K 对应于组的数量。

每组交叉验证

对于每组,记录正确分类的存在要素的百分比和分类为潜在存在的背景要素的百分比。 每个组的诊断有助于表明模型在估计未知位置的存在时将如何执行。 这些诊断包含在工具的地理处理消息中。

地理处理消息中的交叉验证诊断

该工具要求每个组的训练子集中至少有两个存在点和两个背景点,以创建用于交叉验证的模型。 如果该工具随机选择的组未在每个组的训练子集中产生至少两个存在点和两个背景点,则该工具将尝试重新创建组,直到满足此要求或进行 10 次尝试为止。 如果该工具在使用提供的数据尝试 10 次后仍无法满足此交叉验证要求,则该工具将提供警告,指出无法进行交叉验证。

地理处理消息

该工具的一个重要输出是地理处理消息中包含的报告。 该报告包含有关训练模型的重要信息,包括模型参数表、模型比较诊断、回归系数、分类汇总(如果存在分类解释变量)、交叉验证汇总(对于随机重采样方案)和训练和预测数据的解释变量范围诊断(如果使用输入预测要素)。

模型特征消息

回归系数表包含模型训练中使用的所有解释变量,包括它们对应的基扩展和结果系数。 解释变量的名称表明了基扩展的性质;例如,在回归系数表中命名为 product(ELEVATION, CLIMACTICWATERDEFICIT)Elevation 变量和 Climactic Water Deficit 变量的乘积组成的乘积变量。

回归系数消息

交叉验证汇总表包括每个交叉验证组的 ID、其训练验证子集中的观测点计数、预测为存在的观测到的存在要素的百分比以及预测为背景的观测到的背景要素的百分比。

地理处理消息中的交叉验证诊断

解释变量范围诊断表包括所有提供的解释变量(无论是字段、距离要素还是栅格形式)、其在训练数据中的最小值和最大值,以及其在预测数据中的最小值和最大值(如果使用输入预测要素)。

解释变量范围诊断消息

最佳做法和注意事项

使用该工具时应考虑多种最佳做法和注意事项。

处理多重共线性

虽然该工具的规则化缓解了解释变量中多重共线性的影响,但仍建议识别并减少相关解释变量的数量。 分析多重共线性的常用工具包括散点图矩阵图、探索性回归和降维。

处理分类数据

当为重采样方案参数选择随机选项时,该工具将输入训练数据分为子集以执行交叉验证。 在这种情况下,结果组中数据点少于三个的任何类别都将阻止交叉验证,并提供警告以通知您无法应用重采样方法。 使用较小的组数参数值运行该工具可通过增大各组并提高类别作为组的一部分的可能性来减少遇到此问题的概率。

使用并评估空间细化

使用输出训练要素参数探索输入点要素值的空间细化结果。

要使用空间细化构建模型并将模型应用于所有输入点要素,请在输入点要素输入预测要素参数中提供相同的要素。

设置存在概率中断值

要确定存在概率中断值参数的适当值,请使用遗漏率ROC 图图表

遗漏率图表显示了几个存在概率中断值参数值如何生成错误分类的存在点的不同比率,也称为遗漏率。 虽然理想状态是遗漏率接近 0,但不要仅仅为了最小化遗漏率而降低中断值也很重要,因为这也会最小化被归类为潜在存在的背景点的数量(在许多情况下,这是一个有用的结果)。

遗漏率图表

要评估不同的中断值如何影响被归类为存在的背景点的比率,请使用 ROC 图图表。 它包括在不同存在概率中断值的情况下,正确分类的存在点和分类为潜在存在的背景之间的比较。

ROC 图图表

ROC 图图表的目标因背景点的性质而异。 当背景点表示q缺失且存在与背景的相对权重参数值为 1 时,该图表可以用作传统 ROC 图表,其中灵敏度(正确分类的存在点)最大化且 1-特异性(被分类为存在的背景或缺失)最小化。 在这种情况下,靠近图表左上角的中断值更合适。 当背景点表示未知但可能发生时,ROC 图展示了不同的中断率如何影响估算为存在的潜在背景位置的数量。

建议将这两个图表结合使用。 当您评估默认中断值 0.5 的遗漏率图表时,请在遗漏率图表中选择候选中断点,并在 ROC 图图表中比较此条目。

具有遗漏率和 ROC 图的地图

使用输出训练要素图表进行验证

分类结果百分比图表显示了观测到的和预测的分类的比较。 可以使用图表来评估模型预测已知存在点性能的能力。 例如,您可以通过关注错误分类的存在点部分来评估模型在预测已知存在点的存在方面的性能。 在背景点的存在预测很重要的用例中,还可以使用图表来查看和选择预测为存在的背景点。

用于评估真假阳性的分类结果百分比图表

一般型号选择标准

可能适用于您的用例的模型选择工作流程如下:

  1. 使用 ROC 图的 y 轴以评估存在概率截止默认值 0.5 及其对模型将已知存在位置识别为存在(敏感性)的能力的影响。

    并排打开遗漏率ROC 图。 在遗漏率图中选择 0.5 的默认存在概率截止值,并注意 ROC 图的 y 轴上的结果敏感性。

    遗漏率图和 ROC 图表示对应灵敏度值的截止值

  2. 使用 ROC 图的 x 轴评估存在概率截止默认值 0.5 及其对模型将已知背景位置识别为背景(1 - 特异性)的能力的影响。

    并排打开遗漏率ROC 图。 在遗漏率图中选择 0.5 的默认存在概率截止值,并注意 ROC 图的 y 轴上的结果(1 - 特异性)值。

    当背景点反映存在未知的位置时(通过使用默认的相对权重与背景参数值 100),这反映了提交的训练数据中估计与潜在存在相对应的背景位置部分。

    当背景点对应于已知不存在(通过使用存在与背景的相对权重值为 1)时,这反映了误报的部分(被错误标记为存在的已知缺失位置)。

    显示截止值的遗漏率和 ROC 图

  3. 解释 ROC 图中的曲线下面积 (AUC),这是对模型将已知存在位置估计为存在并将已知背景位置估计为背景的能力的评估诊断。 曲线下面积越大,模型越适合存在预测任务。

    显示曲线下面积的 ROC 图

    虽然曲线下面积是一个有用的一般评估诊断,但重要的是要确定模型的目标是减少假正(换句话说,确保预测的存在很可能确实存在)还是减少假误(换句话说,确保预测的不存在很可能确实不存在)。 两个目标的平衡是最接近图表左上角的 ROC 图值。

    ROC 图显示了平衡敏感性和特异性的截止值

  4. 当多个模型具有相似的验证诊断时,选择更简单的模型。 具有更少和更简单解释变量的模型可能因其可解释性和易于解释而受到欢迎。 根据简约性原则,对现象最简单的解释通常是最佳解释(Phillips 等人,2006 年)。

    最重要的是,使用领域专业知识和对问题的透彻理解来指导模型设计、验证和使用。

其他资源

有关详细信息,请参阅以下资源:

  • Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.

  • Du, Zhaohui , Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
  • Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee, and Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. PDF

  • Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].

  • Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, no. 4 (December), 1917-1939.

  • Merow, Cory, Matthew J. Smith, and John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. PDF

  • Mobley W, Sebastian A,Highfield W, Brody SD. 2019. "Estimating flood extentduring Hurricane Harvey using maximum entropy tobuild a hazard distribution model." J Flood RiskManagement. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549

  • Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.

  • Phillips, Steven J. , Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. PDF

  • Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.