[Presence-only 予測 (Presence-only Prediction (MaxEnt))] ツールでは、最大エントロピー アプローチ (MaxEnt) を使ってある現象の存在確率を評価します。 このツールでは既知の出現ポイントと説明変数をフィールド、ラスター、または距離フィーチャの形で使用し、分析範囲全体の存在の評価を提供します。 対応する説明変数が既知である場合、トレーニング済みモデルを使って別のデータの存在を予測できます。 定義済みの不在ロケーションを仮定または明示的に要求する他の方法とは異なり、[Presence-only 予測 (Presence-only Prediction)] はイベントの存在が既知の予測問題にのみ適用できます。
適用例
一般的な例が生態学的および保護的な目的における種の存在のモデリングに関連するのに対して、存在予測問題はさまざまな領域と用途に及びます。
- ある野生生物生態学者が、植物種の観測済み存在ロケーションに関するフィールド データを収集しました。 学者たちはより広い分析範囲で種の存在を評価する必要があります。 既知の存在ロケーションを使用し、ラスターとしてベース ファクターを指定することで、生態学者は種の存在をモデル化し、種が見つかる可能性が最も高い予測ロケーションのマップを作成できます。
- 研究者は影響を受けやすい種の生息環境に気候変動が及ぼす影響を理解する必要があります。 研究者は既知の発生ロケーション、およびさまざまな気候関連ファクター (例: 気温や降水量) などの一連の説明変数を使用して存在をモデル化します。 気候変動の影響が説明変数で観測されているため、投影された気候変動ラスター サーフェスを使用することで、研究者は推定された種の分布をモデル化し、気候変動の投影された影響に従って種の新しい生息環境に関する推定を取得します。
- ある洪水危険分析者は、分析範囲にハリケーンが上陸した後で洪水が発生する確率を推定したいと思っています。 事象発生時の高解像度の航空写真を補足するために、分析者は空間的に分布された物理的特性と社会経済的特性をクラウドソーシングされたデータと組み合わせて使用し、洪水の存在をモデル化します。 分析者は、このモデルを使用して、ハリケーンの発生後に緊急支援が必要となる可能性が最も高い場所を特定します (Mobley, et. al, 2019)。
- ある疫学者は、新たな感染病の発生をモデル化しています。 既知の病原体波及ロケーションと生態的因子 (気温、降水量、土地被覆、正規化差植生指数 (NDVI)、日照時間など) がモデルの予測因子として使用されます。 このモデルを使用して、新たな感染病の発生に対する適合性を表す予備的なリスク サーフェスを作成します (Du, et.al., 2014)。
MaxEnt の概要
空間分析問題には、ジオグラフィ全体におけるイベントの発生のモデリングと推定に注目するという側面があります。 一般的な例が生態学的および保護的な目的における種の存在のモデリングに関連するのに対して、存在予測問題はさまざまな領域と用途に及びます。
存在データが方形枠セルに存在イベント カウントとして記録されている場合があります。観測ごとにそのロケーションでカウントが増えていき、さまざまなモデリング アプローチ ([一般化線形回帰分析 (Generalized Linear Regression)] ツールのポアソン方法など) を使用して、このカウントをモデル化できます。 明示的な存在と不在データが既知のロケーションの指定した間隔として記録されているケースもあります (例: 有害なオゾン レベルを記録する空気品質モニタリング ステーション)。 こうしたケースでは、存在と不在のモデリングは、ロジスティック回帰などさまざまな方法からメリットを得られるバイナリ分類問題です。
イベントの存在が頻繁に記録される一方で、イベントの不在が記録されることがほとんどない生態学的種のモデリングとその他複数の領域のケースでは、明示的な不在データが不足していることで、複数クラスの予測方法を使用した存在と不在のモデル化が困難になります。
MaxEnt は不在を仮定せず、また必要ともしません。 MaxEnt は不完全な情報から予測または推定を行う汎用的な方法です (Phillips et al. 2006)。 指定された一連の既知の存在ロケーション、および分析範囲を記述する説明変数から、MaxEnt は存在ロケーションと分析範囲の間の条件を対比することで、存在確率サーフェスを推測します。
MaxEnt では、主に次の 3 つの入力値がその中心的役割を果たします。
- 既知の存在ポイントのロケーション。
- 分析範囲。
- 説明変数または共変数 (分析範囲全体で存在に関連する可能性のある環境因子を説明する)。
分析範囲は、存在の可能性のある地形を定義するため、一連の未知の存在ロケーションで表されることがよくあります。 これらのロケーションは背景ポイントとも呼ばれており、MaxEnt 方法では、これらのロケーションを使用し、存在ロケーションと分析範囲の条件を対比することで、存在確率サーフェスを推定します。
存在確率サーフェスはさまざまな形態をとることができます。MaxEnt は他のすべての仮定を減らしながら (またはエントロピーを最大化)、描画元の環境である可能性が最も高い形態を選択します。 「既知のあらゆるものと同意しますが、未知のものについては仮定することを慎重に回避します。」 (Jaynes 1990)。
独自のモデリング アプローチに加え、MaxEnt には入力データの準備、説明変数の変換、出力データの準備、モデルの整合チェックを実行するためのステップが含まれているため、存在のみの現象をモデリングするうえで MaxEnt は堅牢な方法です。
Presence-only 予測 (MaxEnt) ツールの使用
[Presence-only 予測 (Presence-only Prediction)] ツールには、MaxEnt のデータ準備、モデリング、変数選択、予測ワークフローの側面が組み込まれています。 このセクションでは、より適切なモデルを作成するのに役立つ各パラメーターに関する重要な情報を紹介します。
既知の存在ロケーションと背景ポイントの指定
存在のみの予測では、既知の存在ロケーションを表すために入力データが必要です。 [入力ポイント フィーチャ] パラメーターを使用して、これらのロケーションに既存のデータセットを指定します。
入力ポイント フィーチャに背景ポイントが含まれない
入力ポイント フィーチャに背景ポイントが含まれていない場合、[背景ポイントを含む] パラメーターはオフのままでかまいません。
[背景ポイントを含む] パラメーターがオフになっている場合、ツールでは分析範囲で交差する [説明トレーニング ラスター] パラメーター値で最も粗いセル重心を使用して、背景ポイントを自動作成します。
[出力トレーニング済みフィーチャ] パラメーターを使用して、ツールによって作成された背景ポイントを含む出力を作成できます。
入力ポイント フィーチャに背景ポイントが含まれる
入力ポイント フィーチャに背景ポイントが含まれている場合、各ロケーションを存在 (1) または背景 (0) として指定するフィールド値とともに [背景ポイントを含む] パラメーターと [存在インジケーター フィールド] を使用できます。
存在ポイントに対する背景ポイントの割合は予測結果に多大な影響を及ぼします。 背景ポイントが入力ポイント フィーチャで指定されている場合でも、ツールによって作成された場合でも、異なる量の背景ポイントを使用してモデルの分類診断をテスト、比較することをおすすめします。 [空間間引き] パラメーターを使用して、分析の背景ポイントの量を減らすことができます。 詳細については、「分析範囲の定義」セクションと「空間間引きを使用したサンプル バイアスの抑制」セクションをご参照ください。
注意:
このツールでは、モデルを作成するためにトレーニング データ内の少なくとも 2 つの存在ポイントと 2 つの背景ポイントが必要となります。
説明変数の指定
既知の存在ポイントと背景ポイントに加え、このツールでは説明変数を使って予測モデルを作成します。 説明変数を指定するには、ラスターの使用、入力ポイント フィーチャ内のフィールドの使用、距離フィーチャの使用という 3 つの方法があります。 ラスターとフィールドでは、説明変数を連続またはカテゴリにできます。 カテゴリ説明変数の場合、ツールではカテゴリごとに 3 つ以上のデータ ポイントが必要です。
ラスターからの説明変数の使用
ラスターを使用して、イベントの存在の予測因子として役立つ可能性がある地形の条件を表すことができます。 たとえば、ある植物種が特定の標高範囲に集中して生育しているとします。この場合、標高ラスターを使用して、モデルで標高値を植物の存在ロケーションと関連付けることができます。
土地利用被覆クラスなど、カテゴリ データをラスターが表す場合は [カテゴリ] ボックスをオンにします。
背景ポイントを作成するのに分析範囲の各セルが使用されるため、入力ポイント フィーチャに背景ポイントが含まれない場合は、ラスターからの説明変数の使用が必須です。
[説明トレーニング ラスター] パラメーター値のセル サイズは処理時間に多大な影響を及ぼします。解像度が高いほど、処理時間が長くなります。 そのため、ツールには対象エリアで使用できるセルの合計数は 1 億個までという制限があります。 [リサンプル (Resample)] ツールを使用してラスターの空間解像度を下げることで、セルの数を減らして処理時間を短くできます。
フィールドからの説明変数の使用
[説明トレーニング変数] パラメーターを使用して、現象の存在のモデリングで説明変数として属性が使用されるフィールドを指定します。 入力ポイント フィーチャに背景ポイントが含まれており、[背景ポイントを含む] パラメーターがオンになっている場合のみ、このオプションを使用できます。
[カテゴリ] チェックボックスを使用して、[説明トレーニング変数] パラメーターで指定するフィールドをカテゴリにするかどうかを指定します。
距離フィーチャからの説明変数の使用
[説明トレーニング距離フィーチャ] パラメーターを使用して、入力ポイント フィーチャまでの近接性が説明変数として使用されるフィーチャを指定します。 入力ポイント フィーチャに背景ポイントが含まれており、[背景ポイントを含む] パラメーターがオンになっている場合のみ、このオプションを使用できます。
距離フィーチャを使用して、入力ポイント フィーチャから入力されたフィーチャのなかで最も近いフィーチャまでの距離を計算することで自動的に説明変数が作成されます。 [説明トレーニング距離フィーチャ] パラメーター値がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。 入力距離フィーチャがポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。 ポリゴンとラインでは距離の計算方法が異なります。詳細については「近接解析ツールによる距離の計算方法」をご参照ください。
パフォーマンス上の理由により、入力ポイント フィーチャに背景ポイントが含まれていない場合は [説明トレーニング距離フィーチャ] パラメーターは使用できません。 ただし、[距離累積 (Distance Accumulation)] ツールを使って距離ラスターを作成することで、存在のみのポイントを使用する際に距離フィーチャを使用できます。 指定したデータ ソースのセルと最も近いフィーチャとの間の距離を説明する値を持つセルが距離ラスターには含まれています。 距離ラスターを作成すると、存在のみの入力ポイント フィーチャの [説明トレーニング ラスター] パラメーターで入力として距離ラスターを使用できます。
モデル入力でのデータの準備
ツールには指定した入力ポイント フィーチャと説明変数のためのデータ準備ステップが用意されています。 基底関数の使用、分析範囲の指定、空間間引きを使用したサンプリング バイアスの減少によって変数の変換を行うことでデータを準備します。
基底関数を使用した説明変数の変換
地形の特徴は MaxEnt で候補説明変数として使用されます。 一部のケースでは、存在を促進する条件にイベントの発生に関して複雑なリレーションシップがある場合があります。 より複雑なリレーションシップの形態をモデルに組み込むために、ツールは基底関数を使用してこれらの候補説明変数を変換 (または展開) します。
[説明変数の展開 (基底関数)] パラメーターを使用することで、1 回のツール実行のなかで複数の基底関数を選択できます。その後、説明変数の変換されたすべてのバージョンがモデルで使用されます。 最もパフォーマンスが高い変数は正規化によって選択されます。これは、モデルの適合と複雑さの間でトレードオフのバランスを取る変数選択の方法です。
次の 5 種類の基底関数があり、複雑な現象をモデル化する際の考慮事項はそれぞれ異なります。
- [Original (Linear)] - 一次基底関数を入力変数に適用し、変換を適用する必要がない場合に使用できます。 これがデフォルトのオプションです。
サンプルのユース ケースでは、水流に到達する必要があることが判明している種の存在のモデル化を目的としてこのツールを使用しています。 水流までの距離に相当する変数に一次基底関数を適用すると、モデルで種の存在と水流までの距離との線形関係を推定できます。 結果として生成された係数を使用して、限界的な線形関係を解釈した上で、より複雑な関係の形態を試行することができます。
モデルで解釈可能性が優先される場合は [Original (Linear)] 基底関数を使用します。 変換が発生しないため、存在確率の効果の視点で係数を解釈するのは一次方法が最も簡単です。
注意:
カテゴリ説明変数で使用できるのは [Original (Linear)] 基底関数だけです。 連続説明変数とカテゴリ説明変数の両方を適用した場合、基底関数を複数選択できますが、カテゴリ変数には [Original (Linear)] 基底関数しか適用されません。
- [Squared (Quadratic)] - 二乗することで各説明変数値を変換し、説明変数と存在応答の間に二次リレーションシップを構築します。 種の分布など、一部の領域では環境条件に対する種の反応が非線形および単峰型になることが多く (Austin 2002, 2007)、二次形態がリレーションシップを最も適切に表す場合があります。
一部のケースでは、応答イベントがある説明変数のリレーションシップに二次リレーションシップが存在する場合がありますが、入力ポイント フィーチャのサンプリング データがパラボリック リレーションシップの 1 つの側面しか表さない場合があります。 たとえば、ある熱帯種に気温とのパラボリック リレーションシップがあるとします。極端な低温では存在確率が低くなり、熱帯の気温では確率が高くなります。また、極端な高温でも確率が低くなります。 この種のサンプリング データに極寒温度が含まれていない場合、リレーションシップは単純に線形リレーションシップで表せます (Merow et al. 2013)。
- [Pairwise interaction (Product)] - 説明変数に対してペアワイズ乗算を実行します。 たとえば、A、B、C という 3 つの変数を選択した場合、この基底関数は A x B、A x C、B x C の結果に対応する変換済み変数を生成します。 これらの変換済み変数は一般的に相互作用項と呼ばれ、複数の変数の条件に左右される複雑なリレーションシップの表現に役立つ場合があります。 たとえば、独自の各変数が使用された場合よりも、収入と店舗までの距離の両方を含む相互作用項の方が顧客の支持率を明確に表す予測因子だとします。
[Pairwise interaction (Product)] 方法の変換済み説明変数は環境条件間のインターセクションをモデリングするのに有用ですが、相互作用項では他と比較した場合のある説明変数の効果を解釈するのが難しくなるため、モデルの解釈可能性がさらに低くなる場合があります。 各説明変数の係数と部分的な応答プロットを評価する際にこれが最も重要になります。
注意:
複数の連続説明変数を選択した場合のみ [Pairwise interaction (Product)] オプションを使用できます。
- [Discrete step (Threshold)] - 段階関数を適用することで、連続説明変数をバイナリ説明変数に変換します。閾値を下回る値には 0 の値、閾値を上回る値には 1 の値が割り当てられます。
[ノット数] パラメーターは作成される閾値の数を制御し、各閾値を使って複数の変換済みバイナリ説明変数を作成するのに使用されます。 長さが均等なセグメントを作成するために、説明変数の最小値と最大値の間に閾値が適用されます。
サンプル ユースケースでは、発生時の高温の影響を分析するために [Presence-only 予測 (Presence-only Prediction)] を実行しています (例: 摂氏 32 度を上回るかどうか)。 閾値基底関数を使用することで、連続気温変数を値 1 (32 度を上回る) と 0 (32 度を下回る) に分割し、存在に関連する各条件を解釈できるようにします。
- [Smoothed step (Hinge)] - ノットと呼ばれる閾値で分割された、静的セグメント (すべてが 0 か 1) と一次関数 (増加か減少) という 2 つのセグメントに連続説明変数を変換します。 フォワード ヒンジ (最小値とノットの間で 0 から始まり、ノットと最大値の間に増加一次関数を適用) かリバース ヒンジ (最小値とノットの間で減少一次関数から開始し、ノットと最大値の間にすべての 1 を適用) を使用することでこれを実行できます。
[ノット数] パラメーターは生成される説明変数変換の数を制御し、(ノット数 – 1) * 2 の結果が変換される説明変数の数になります。 このような式になるのは、説明変数の最小値と最大値の間で使用される均等間隔の数がノット数で決まり (ノット数から 1 を除算)、フォワード ヒンジの変換済み変数とリバース ヒンジの変換済み変数の両方が作成されるためです (2 で乗算)。
サンプル ユースケースでは、高温のバリエーションの影響を分析するためにツールを実行しています (例: 摂氏 32 度を超えるすべての値を保持し、それを下回る温度はすべて無視)。 ヒンジ基底関数では、ノットを上回るバリエーションを変数で保持しながら (32 度を超えるすべての値に一次関数を適用)、ノットを下回るすべてのデータからノイズを軽減できます (32 度を下回るすべての値を 0 に変換)。
[Smoothed step (Hinge)] オプションと [Discrete step (Threshold)] オプションは同時に使用できない区分的関数で、どちらかを選択するともう一方を選択することができません。 いずれかを選択した場合、モデルの複数の実行をテストし、[ノット数] パラメーターの値を調整して、これらの閾値がモデルにどのようなメリットまたはデメリットをもたらすのかを解釈することをおすすめします。
このツールでは、事象の存在を促進する複雑な条件のモデル化を試行した場合に、各説明変数のさまざまな変形バージョンが使用されます。 たとえば、年間平均気温を使用してサバクゴファーガメの種の存在確率を推定するモデルでは、変数のさまざまな拡張を使用して、気温とサバクゴファーガメの生息地との複雑な関係を説明することができます。
上記の部分的な応答プロットには、年間平均気温の変化に伴う存在確率のわずかな応答が示されています。 その他すべての因子を同じにすると、存在確率は次のようになります。
- 年間平均気温が 0 ~ 15 ℃ の間で上昇すると、直線的に上がる
- 15 ~ 21 ℃ の間で徐々に下がる
- 年間平均気温が 21 ℃ を上回ると、急激に下がる
このツールでは、複数の基底関数を使用して、該当するタイプの関係を最もよく表す説明変数の拡張を生成します。これにより、正規化と呼ばれるプロセスで最も有益性の高い変形が選択されます。
正規化
MaxEnt はトレーニング データの過剰適合の影響を受けます。 この問題を軽減するために、この方法では大きな説明変数係数にペナルティをかける正規化の形態を適用し、最も重要な説明変数に注目するようモデルに強制します (Phillips et al. 2006)。
限られた係数バジェットがモデルに提供されたすべての説明変数で共有されるという方法で正規化を概念化しています。 バジェットを満たすために係数が減るにつれ、係数が低い複数の説明変数が 0 まで減少し、その結果、モデルから削除されます。 これには、モデルが保持する説明変数の数が減り、係数バジェットを下回っても生き残れるだけの係数を持っていた説明変数だけが保持されるという効果があります。 説明変数の数が減ることで、モデルが過剰適合される可能性が低くなり、解釈しやすくなります。 最節約原理に従って、現象を最もシンプルに説明するのが通常は最適です (Phillips et al.,2006)。
正規化には多重共線性への対処に役立つという効果もあります。関連する説明変数が追加されると、1 つの変数が含む合計係数値が相関する複数の変数間で共有され、多重共線性変数の係数が下がります。 正規化によって残りの係数値にペナルティがかけられるため、多重共線性変数係数が 0 まで減少してモデルから削除される可能性が高まります。
分析範囲の定義
背景ポイントが入力ポイント フィーチャに含まれておらず、存在が可能なロケーションを定義する場合は分析範囲を指定する必要があります。 [分析範囲] パラメーターの次の 3 つのオプションを使用して分析範囲を定義できます。
- [凸包] - 入力ポイント フィーチャの凸包を使用します。
- [ラスター範囲] - [説明トレーニング ラスター] パラメーターで指定したラスターの交差点の範囲。
- [分析範囲のポリゴン] - [分析範囲のポリゴン] パラメーターで指定した、カスタマイズされたポリゴン フィーチャクラス境界を使用します。
分析範囲はモデルの成果に大きく影響します。背景ポイントを作成するのに使用される説明トレーニング ラスターのラスター セルは分析範囲の大きさによって決まります。 存在が可能な環境条件が背景ポイントによって確立され、存在が観測された環境条件と対比されます。 背景ポイントと存在ポイントの割合が変化するため、予測結果も異なります。
分析範囲によって、モデルのトレーニング データの範囲が確立されます。 このシナリオの入力ポイント フィーチャは存在が観測されたロケーションを表し、分析範囲は存在が可能なロケーションを表します (必ずしも観測されている必要はない)。 そのため、分析の分析範囲は収集した存在ポイントの調査デザインを参考にすることをおすすめします。 たとえば、存在データ収集調査で 100 ㎢ の地域全体を調べた場合、その地域を表す境界ポリゴンを分析範囲として使用できます。
一部のケースでは、特定の入力ポイント フィーチャ セットのさまざまな分析範囲が現象の異なる力学を探索するのに役立つ場合があります (Elith et al. 2011, 51–52)。
空間間引きを使用したサンプル バイアスの抑制
入力ポイント フィーチャで表されているサンプル済みエリアが明確な空間クラスターを示すことでサンプリング バイアスが発生します。 たとえば、データ収集調査は一般的に、道路や遊歩道の近く、およびデータ収集に適したその他の条件の下で実施されます。 現象の存在を示すためのデータが、データ収集に適した条件の存在を示すデータと融合するという効果がサンプリング バイアスにはあります。 サンプリング バイアスは大半の存在のみデータセットで発生し、最も厳格で入念に計画された調査デザインでのみ軽減されます。
空間間引きはモデルのサンプリング バイアスの影響を抑えるためのテクニックです。トレーニング データから存在ポイントと背景ポイントを削除することで、ポイント間の距離を指定した最小値にします。 それぞれの指定した距離内でポイントの量を減らすことで、空間的に過剰にサンプリングされたエリアがモデルのトレーニング データで減少します。
空間間引きを使用するには、[空間間引きの適用] パラメーターをオンにして、次の 2 つのパラメーターで値を指定します。
- [最小最近隣距離] - 2 つのポイント間の距離を指定します。
- [間引きの処理の反復回数] - 適切な解を見つけるために、ポイントの削除を何回試みるかを指定します。 指定した回数だけ空間間引きが試行されると、残ったポイントが最も多い実行がモデルのトレーニングに使用されます。
存在のみのデータを使用するケースで背景ポイントがツールによって生成された場合でも、存在ポイントと背景ポイントの両方で空間間引きが発生します。 背景ポイントに適用された空間間引きと存在ポイントに適用された空間間引きは個別に発生します。その結果、最小近接距離よりも存在ポイントが背景ポイントに近くなる場合があります。
このツールでラスター セルを使用して背景ポイントを作成した場合は、ラスターを [最小最近隣距離] パラメーターの値にリサンプリングし、結果として生成されたラスター セルの重心を空間的に間引きされた背景ポイントとして使用すると、空間間引きが適用されます。
背景ポイントの量が減るため、セル数が多いラスターに起因する問題を軽減するうえで空間間引きは威力を発揮します。 ラスターの解像度に関係なく、指定した最小近隣距離に応じて、間引き後にはほぼ同じ数の背景ポイントが残ります。
データが空間間引き条件を満たしているため、最小最近隣距離の値が 2 つのポイント間の最近隣距離よりも小さい場合には (入力ポイント フィーチャから取得されたか、ラスター セルの重心から取得されたかに関係なく)、空間間引きが適用されません。
モデルの構成
ツールにはモデルを構成および調整するためのさまざまなパラメーターが用意されています。 ツールを実行するためにすべてのパラメーターを使用する必要はありませんが、モデルの仕組みと各パラメーターの使い方を理解しておくことで、存在モデリングワークフローでツールがはるかに使いやすくなります。
存在から背景までの相対情報ウェイトの設定
ツールでは [存在から背景までの相対ウェイト] パラメーターを使用して、モデルによって背景ポイントがどのように考慮されるかを指定します。
デフォルト値である 100 は、入力ポイント フィーチャの存在ポイントが存在情報の主なソースであることを示しています。各背景ポイントの発生は未知で、存在が可能でありながら未知の地形の特徴を表すためだけに使用できます。 値 1 は、存在ポイントに対して背景ポイントが均等に有意であることを示しています。これらは存在ロケーションではないものの、均等に有意であるため、既知の不在ロケーションを表します。 不在ロケーションとしての背景ポイントを存在ロケーションと組み合わせて均等に使用することで、存在と不在の両方を推測するバイナリ分類モデルを作成できます。
この値は、モデルの動作とツールが生成する予測に大きな影響を及ぼします。 [存在から背景までの相対ウェイト] の値が 100 に近い場合、モデルは MaxEnt 方法の従来の形式を適用します。 値が 1 の場合、モデルはそれぞれの存在と背景ポイントを均等に扱い、ロジスティック回帰と同じようになります。
[存在から背景までの相対ウェイト] パラメーターで 1 ~ 100 の間で適切な値を決定する際は、分野に関する専門知識を活用することをおすすめします。これは、これらの値が分析範囲のイベントの普及度を表すと見なすことができるためです。
リンク関数と存在確率閾値を使用した出力の解釈
モデルの中間出力 (ツールから返されたものではありません) は各ロケーションの相対発生率 (ROR) です。 この中間出力は発生可能性を表しているわけではありません。これは、分析範囲全体で存在を促進するための、各ロケーションの相対適合性に対応しています。 存在確率と存在の予測として解釈できる値にこれらの未加工の値を変換するために、[存在確率変換 (リンク関数)] パラメーターで指定されたリンク関数と、[存在確率のカットオフ] パラメーターで指定されたカットオフ値を使って値が変換されます。
リンク関数は主に MaxEnt の未加工出力を解釈可能な存在確率に変換するのに使用されますが、背景ポイントがどのように考慮されるか (真の背景か不在か) にも関係します。 リンク関数はモデルのベースとなる計算には直接影響しませんが、リンク関数の出力は結果に直接影響します。
[存在確率変換 (リンク関数)] パラメーターでは次の 2 つのリンク関数を使用できます。
- [C-log-log] - 現象の存在が不明なロケーションとして背景ポイントを扱います。 式 1-exp(-exp(entropy + raw output)) を使用して、各ロケーションの存在確率を計算します。 これがデフォルトです。
- [ロジスティック] - 現象の不在を表すロケーションとして背景ポイントを扱います。 この仮定により、[存在から背景までの相対ウェイト] パラメーターにはこの関数の選択時に 1 に近い値が必要です。 このリンク関数は式 1/(1+exp(-entropy- raw output)) を使用して、各ロケーションの存在確率を計算します。
リンク関数の存在確率は 0 ~ 1 の範囲の値として提供されます。 [存在確率のカットオフ] パラメーターを使用して、ロケーションを存在として分類する確率閾値を指定できます。 デフォルトで 0.5 が使用され、0.5 以上の値は存在として分類されます。 0.01 ~ 0.99 の範囲の値を入力して、独自のカットオフを設定できます。
指定したカットオフ値を使用した分類結果は入力ポイント フィーチャの既知の存在ポイントと比較され、ジオプロセシング メッセージと出力トレーニング済みフィーチャに診断が提供されます。
モデル トレーニング出力の指定
ツールは出力をトレーニング出力と予測出力に分類します。 主な違いとして、トレーニング出力がモデルのトレーニングと選択に使用されたデータに対応するのに対して、予測出力はモデルがまだ提供されていないデータに対応します。
出力トレーニング済みフィーチャ
[出力トレーニング済みフィーチャ] パラメーターを使用して、モデルのトレーニングに使用されるポイントを含むフィーチャクラスを生成します。 この出力は、モデルからの分類と観測された分類の比較を使用することで、各トレーニング済みポイントをシンボル化します。
出力トレーニング済みフィーチャに含まれるポイントは入力ポイント フィーチャのポイントと同じである必要はありません。これは、存在のみのデータを使用する際に背景ポイントが生成され、モデルのトレーニングに使用されるポイント数が空間間引きによって減少する場合があるためです。
出力トレーニング済みフィーチャには次の 3 つのチャートが含まれています。
- [分類結果のパーセンテージ] - トレーニング フィーチャで観測された分類を使用して、正しい予測の一部を評価するのに使用されます。
- [存在と背景の数 (確率範囲別)] - モデルの存在確率値の分散と、観測された存在および背景の分類を比較するのに使用されます。
- [分類別の存在確率の分布] - 分類指定別に存在確率範囲の分布を見るために使用されます。
出力トレーニング済みラスター
[出力トレーニング済みラスター] を使用して、入力トレーニング データの範囲にある各セルの存在確率を 4 つのカテゴリに分類するラスターを作成できます。 背景ポイントを含まない入力ポイント フィーチャを使用する場合のみこれを利用できます。
出力トレーニング済みラスターの範囲は、分析範囲の説明トレーニング ラスターの交差点に対応しています。 デフォルトのセル サイズはラスター入力の最大セル サイズで、[セル サイズ] 環境を使用して変更できます。
応答曲線テーブルと感度テーブル
[出力応答曲線テーブル] パラメーターを使用して、予測する存在の各説明変数のわずかな影響を視覚化するチャートがあるテーブルを作成できます。 これは、各説明変数に対する現象の存在の部分的依存、または部分的応答とも呼ばれます。
[連続変数の部分的な応答] チャートは複数のチャートで構成されています。各チャートでは、存在確率の各説明変数で変化する値の影響を視覚化し、その他すべての因子を同じにします。
カテゴリ変数の部分的な応答チャートは、説明変数カテゴリごとに存在のわずかな応答を示す単一のバー チャートです。
[出力感度テーブル] パラメーターは次の 2 つのチャートを含むテーブルを提供します。
- [オミッション率] チャート - 0 ~ 1 の存在確率カットオフ値の範囲を使用して、モデルによって非存在として誤って分類された既知の存在ポイントの一部を評価するのに使用されます。
- [ROC プロット] チャート - 正しく分類された既知の存在ポイント (モデルの感度) の一部と、存在として分類された背景ポイントの一部を比較するのに使用されます。 [オミッション率] チャートと同じように、0 ~ 1 の間の存在確率カットオフ値の範囲全体に対してこの比較が行われます。
予測へのモデルの適用
モデルのトレーニングに加え、[予測オプション] パラメーター カテゴリにあるパラメーターを使用して新しいロケーションの推定存在にトレーニング済みモデルを適用するのにも [Presence-only 予測 (Presence-only Prediction)] ツールが使用されます。
新しい入力予測フィーチャを使用した予測のためのツールの構成
[入力予測フィーチャ] パラメーターでは、ツールがトレーニング済みモデルを適用して存在を予測するロケーションを指定します。 [出力予測フィーチャ] パラメーターは、[入力予測フィーチャ] パラメーター値に適用された予測結果を含む出力を示しています。
モデルのトレーニングに使用される各説明変数について、[説明変数の照合]、[距離フィーチャの照合]、[説明ラスターの照合] の各パラメーターを使用して、フィールド、距離フィーチャ、またはラスターの形態で照合対象説明変数を指定する必要があります。
予測データで発生した値の範囲は、トレーニング データにある値の範囲と異なる場合があります。 たとえば、モデルのトレーニング用の標高ラスターに 400 ~ 1,000 メートルの値が含まれているものの、予測ロケーションの対応する標高ラスターには標高が 200 ~ 1,200 メートルのエリアがあるとします。 予測ロケーションの説明変数範囲をトレーニング データにある範囲内に収めることが推奨されますが、[データ範囲外の予測を許可] パラメーターを使用することで、モデルで外挿できるようにし、これらのロケーションにも推定を提供することができます。 ツールのジオプロセシング メッセージを使用して、トレーニング データ範囲を超えた説明変数範囲があるかどうかを診断します。
[出力予測ラスター] パラメーターを使用して、[説明ラスターの照合] パラメーターで指定したラスターの交差点の範囲内にある各セルに適用される、モデルの予測結果を含むラスターを作成することもできます。 このパラメーターを使用することで、予測ロケーションで利用できる環境条件の範囲全体に予測サーフェスを提供します。
出力予測ラスターと出力トレーニング ラスターには相違点があります。モデルで使用されたトレーニング データの範囲に対してのみトレーニング ラスターが生成されるのに対して、予測ラスターは入力予測フィーチャの範囲と照合された説明ラスターの交差点に対して生成されます。
モデルの整合チェック
このツールには、モデルの整合チェックと評価を行うためのオプションがあります。 これらのオプションと [出力応答曲線テーブル] パラメーター、および [出力感度テーブル] パラメーターを組み合わせて使用することで、モデルの品質と実用性を評価することをおすすめします。
リサンプリングと交差検証の使用
[整合チェック オプション] パラメーター カテゴリの [リサンプリング スキーマ] パラメーターと [グループ数] パラメーターでは、モデルの交差検証を適用するかどうかを指定します。
[ランダム] リサンプリング スキーマを選択した場合、このツールは、トレーニング データを指定した数のグループに分割します。
次に、このツールは各グループで反復処理を開始します。整合チェック サブセットになる現在のグループのデータが選択された後、トレーニング サブセットになる残りのすべてのグループのデータ全体が選択されます。
このツールは、該当するグループのトレーニング サブセットを使用してモデルを作成し、整合チェック フィーチャごとに存在を予測します。 この後、予測の結果が整合チェック サブセット内の既知の存在指定および背景指定と比較されます。
このツールは、反復処理を実行し、各グループが整合チェック サブセットの役割を果たせるようにすることで、このプロセスを継続します。 このプロセスは、K 分割交差検証として広く知られています。ここで、K は、グループの数に相当します。
グループごとに、正しく分類された存在フィーチャの割合と存在の可能性として分類された背景フィーチャの割合が記録されます。 各グループの診断は、未知のロケーションで存在を推定する場合のモデルの動作を示すのに役立ちます。 これらの診断は、このツールのジオプロセシング メッセージに含まれます。
このツールでは、交差検証のモデルを作成するために各グループのトレーニング サブセット内の少なくとも 2 つの存在ポイントと 2 つの背景ポイントが必要となります。 このツールによってランダムに選択されたグループで、各グループのトレーニング サブセット内に少なくとも 2 つの存在ポイントと 2 つの背景ポイントが生成されない場合、グループの再作成は、この要件が満たされるまで試行されるか、最大 10 回まで試行されます。 提供されたデータを使用して 10 回試行しても、この交差検証要件が満たされない場合は、交差検証を実行できなかったことを示す警告が表示されます。
ジオプロセシング メッセージ
ツールの重要な出力はジオプロセシング メッセージに含まれるレポートです。 モデル パラメーターのテーブル、モデル比較診断、回帰係数、カテゴリの概要 (カテゴリになっている説明変数がある場合)、交差検証の概要 (ランダム リサンプリング スキーマの場合)、トレーニングと予測データの説明変数範囲診断 (入力予測フィーチャが使用された場合) など、トレーニング済みモデルに関する重要な情報がレポートには含まれます。
[回帰係数] テーブルには、対応する基底展開、および生成される係数など、モデルのトレーニングに使用される各説明変数が含まれます。 説明変数の名前は基底展開の性質を示しています。たとえば、Elevation 変数と Climactic Water Deficit 変数の積で構成される積変数の名前は回帰係数テーブルで product(ELEVATION, CLIMACTICWATERDEFICIT) となります。
[交差検証の概要] テーブルには、各交差検証グループの ID、トレーニング検証サブセット内の観測数、存在として予測された観測済み存在フィーチャのパーセント、背景として予測された観測済み背景フィーチャのパーセントが含まれます。
[説明変数範囲診断] テーブルには、指定された各説明変数 (フィールド、距離フィーチャ、またはラスターの形態)、トレーニング データにある最小値と最大値が含まれています。また、入力予測フィーチャが使用されている場合は、予測データにある最小値と最大値も含まれます。
ベスト プラクティスと考慮事項
ツールを使用する際に適用すべきさまざまなベスト プラクティスと考慮事項があります。
多重共線性への対応
ツールの正規化によって説明変数の多重共線性の影響が軽減されますが、相関する説明変数の量を特定して減らすことが引き続き推奨されます。 散布図マトリックス チャート、予備回帰分析、ディメンションの縮小などのツールが多重共線性の分析によく使用されます。
カテゴリ データへの対応
[リサンプリング スキーマ] パラメーターで [ランダム] オプションが選択されている場合、ツールは入力トレーニング データをグループに分割して交差検証を実行します。 この場合、生成されるグループのデータポイント数が 3 未満のカテゴリによって交差検証ができなくなり、リサンプリング方法を適用できなかったことを通知する警告が表示されます。 [グループ数] パラメーターの値を低くしてツールを実行すると、各グループが大きくなり、カテゴリが各グループに含まれる可能性が高くなるため、この問題が発生する可能性が下がります。
空間間引きの使用と評価
[出力トレーニング フィーチャ] パラメーターを使用して、[入力ポイント フィーチャ] の値の空間間引きの結果を調べます。
空間間引きを使用してモデルを構築し、そのモデルをすべての入力ポイント フィーチャに適用するには、[入力ポイント フィーチャ] パラメーターと [入力予測フィーチャ] パラメーターで同じフィーチャを指定します。
存在確率カットオフ値の設定
[存在確率のカットオフ] パラメーターの適切な値を決定するには、[オミッション率] チャートと [ROC プロット] チャートを使用します。
[オミッション率] チャートでは、[存在確率のカットオフ] パラメーター値が異なると、間違って分類された存在ポイントの割合 (別名「オミッション率」) がどのように変化するかが視覚化されます。 オミッション率が 0 に近いのが望ましい形ですが、オミッション率を最小化するためだけにカットオフ値を下げないのも重要です。これは、カットオフ値を下げると、候補存在として分類される背景ポイントの数も最小化されるためです (多くのシナリオでは有用な結果)。
存在として分類される背景ポイントの割合にさまざまなカットオフ値がどのように影響するかを評価するには、[ROC プロット] チャートを使用します。 正しく分類された存在ポイント、およびさまざまな存在確率カットオフ値で候補存在として分類された背景の間の比較が含まれます。
[ROC プロット] チャートの目的は背景ポイントの性質によって異なります。 背景ポイントが不在を表し、[存在から背景までの相対ウェイト] パラメーターの値が 1 の場合、感度 (正しく分類された存在ポイント) が最大化され、1 - 特異性 (存在として分類された背景または不在) が最小化された従来の ROC チャートとしてチャートを使用できます。 このケースでは、チャートの左上隅に近いカットオフ値の方が適切です。 背景ポイントが未知でありながら可能な発生を表す場合、カットオフ率が異なることで、存在として推定される候補背景ロケーションの数がどのように変化するかが ROC プロットに表示されます。
両方のチャートを組み合わせて使用することをおすすめします。 デフォルトのカットオフである 0.5 でオミッション率チャートを評価する際は、[オミッション率] チャートで候補カットオフ ポイントを選択し、このエントリを [ROC プロット] チャートで比較します。
整合チェックでの出力トレーニング済みフィーチャ チャートの使用
[分類結果のパーセンテージ] チャートには、観測および予測された分類の比較が表示されます。 このチャートを使用して、既知の存在ポイントのパフォーマンスを予測するモデルの能力を評価できます。 たとえば、誤って分類された存在ポイントの一部に注目することで、既知の存在ポイントの予測対象存在におけるモデルのパフォーマンスを評価できます。 背景ポイントでの存在の予測が重要になるユース ケースでは、存在があると予測されている背景ポイントの表示と選択にもこのチャートを使用できます。
一般的なモデル選択基準
ユース ケースに適用できるモデル選択のワークフローを次に示します。
ROC プロットの Y 軸を使用して、存在確率のカットオフのデフォルト値である 0.5 が、既知の存在ロケーションを存在 (感度) として識別するモデルの能力に与える影響を評価します。
[オミッション率] チャートと [ROC プロット] チャートを並べて表示します。 オミッション率プロットで存在確率のカットオフのデフォルト値 0.5 を選択し、ROC プロットの Y 軸で結果として生成された感度を記録します。
ROC プロットの X 軸を使用して、存在確率のカットオフのデフォルト値である 0.5 が、既知の背景ロケーションを背景 (1 - 特異性) として識別するモデルの能力に与える影響を評価します。
[オミッション率] チャートと [ROC プロット] チャートを並べて表示します。 オミッション率プロットで存在確率のカットオフのデフォルト値 0.5 を選択し、ROC プロットの X 軸で結果として生成された (1 - 特異性) 値を記録します。
背景ポイントが未知の存在を含むロケーションを表す場合は ([存在から背景までの相対ウェイト] パラメーターの値としてデフォルト値の 100 を使用する)、送信済みのトレーニング データ内で、存在の可能性に相当すると推定される背景ロケーションの部分が示されます。
背景ポイントが既知の不在を表す場合は ([存在から背景までの相対ウェイト] パラメーターの値として 1 を使用する)、偽陽性の部分 (誤って存在として分類された既知の不在ロケーション) が示されます。
ROC プロット内の曲線下面積 (AUC) を解釈します。これは、モデルが既知の存在ロケーションを存在として推定し、既知の背景ロケーションを背景として推定する能力に対する評価診断です。 曲線下面積が大きいほど、そのモデルは存在予測タスクに適しています。
曲線下面積は一般的に有用な評価診断ですが、モデルの目的が偽陽性を少なくすることであるか (つまり、予測された存在が実際に存在である可能性が高いことを確認する)、偽陰性を少なくすることであるか (つまり、予測された不在が実際に不在である可能性が高いことを確認する) を判断することが重要となります。 2 つの目的のバランスは、チャートの左上に最も近い ROC プロット値で取ります。
複数のモデルに同様の整合チェック診断が存在する場合は、より単純なモデルを選択します。 解釈可能性を高め、説明を簡単にするために、説明変数の数が少なく、より単純な説明変数を含むモデルが必要となることがあります。 最節約原理に従って、現象を最もシンプルに説明するのが通常は最適です (Phillips et al.,2006)。
特に、特定分野の専門知識を活用し、問題を十分に把握することがモデルを設計、整合チェック、使用する際の手引きとなります。
参考資料
詳細については、次のリソースをご参照ください。
Aiello-Lammens, Matthew E., Robert A. Boria, Aleksandar Radosavljevic, Bruno Vilela, Robert P. Anderson. 2015. "spThin: an R package for spatial thinning of species occurrence records for use in ecological niche models." Ecography 38: 541-545.
- Du, Zhaohui, Zhiqiang Wang, Yunxia Liu, Hao Wang, Fuzhong Xue, Yanxun Liu. 2014. "Ecological niche modeling for predicting the potential risk areas of severe fever with thrombocytopenia syndrome." International Journal of Infectious Diseases, 26: 1-8. ISSN 1201-9712. https://doi.org/10.1016/j.ijid.2014.04.006
Elith, Jane, Steven J. Phillips, Trevor Hastie, Miroslav Dudík, Yung En Chee, and Colin J. Yates. 2011. "A statistical explanation of MaxEnt for ecologists." Diversity and Distributions, 17: 43-57. PDF
Fithian, William, Jane Elith, Trevor Hastie, David A. Keith. 2014. "Bias Correction in Species Distribution Models: Pooling Survey and Collection Data for Multiple Species." arXiv:1403.7274v2 [stat.AP].
Fithian, William, Trevor Hastie. 2013. "Finite-sample equivalence in statistical models for presence-only data." The Annals of Applied Statistics, 7, no. 4 (December), 1917-1939.
Merow, Cory, Matthew J. Smith, and John A. Silander, Jr. 2013. "A practical guide to MaxEnt for modeling species’ distributions: what it does, and why inputs and settings matter." Ecography, 36: 1058–1069. PDF
Mobley W, Sebastian A, Highfield W, Brody SD. 2019. "Estimating flood extent during Hurricane Harvey using maximum entropy to build a hazard distribution model." J Flood Risk Management. 2019;12 (Suppl. 1):e12549. https://doi.org/10.1111/jfr3.12549
Phillips, Steven J., Miroslav Dudik. 2008. "Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation." Ecography 31: 161-175.
Phillips, Steven J. , Robert P. Anderson, Robert E. Schapire. 2006. "Maximum entropy modeling of species geographic distributions." Ecological Modelling, 190: 231-259. PDF
Radosavljevic, Aleksandar, Robert P. Anderson. 2014. "Making better Maxent models of species distributions: complexity, overfitting and evaluation." Journal of Biogeography 41, 629-643.