シグネチャ ファイル、クラス、およびクラスターの解析の作成

Spatial Analyst のライセンスで利用可能。

ArcGIS Spatial Analyst エクステンションを使用して、ラスター セルをクラスまたはクラスターにグループ化して分類を作成できます。クラスは通常、森林、居住地域、水域などの既知のカテゴリで、一方クラスターはセルの属性の統計情報に基づいてグループ化したセルです。シグネチャは、クラスまたはクラスターを代表するセルのサブセットです。シグネチャの統計情報は、シグネチャ ファイルに格納され、入力バンド内の交差するすべてのセルの分類に使用されます。

クラスとは

クラスは、意味のある位置のグループに対応します。たとえば、森林、水、高い小麦の生産高はすべてクラスです。

各位置は、値のセットまたはベクターで特性付けられ、各変数、または入力バンドについて 1 つの値をとります。各位置は、多次元属性空間内の 1 ポイントとして視覚化でき、その空間の軸は入力バンドの変数に対応します。この多次元属性空間内にあるポイントのグループがクラスターと呼ばれ、この場合、クラスターは何か意味のあるものを示すので、クラスとしても見なすことができます。2 つの位置の属性 (バンド値のベクトル) が似ている場合、その 2 つの位置は同じクラスターに属します。

クラスをその属性値で分離または区別できる場合は、既知のクラスが属性空間内でクラスターを形成できます。属性空間内の自然なクラスターに対応する位置は、層の自然発生的なクラスと解釈できます。

教師付き分類のクラスの指定

教師付き分類では、解析地域を分類するクラスが分かっていて、各クラスを代表するサンプル位置が解析地域にあります。たとえば、衛星写真から土地利用マップを作成する場合、クラスには都市部、水域、森林、農地、道路などがあります。目的は、解析エリア内の個々の位置を既知のクラスに割り当てることです。あるクラスに属すると特定できるサンプル位置が多いほど、またクラス内のセル値が均質になるほど、その後の分類が良好に行われます。既知のクラス位置を示す実際の位置は、トレーニング サンプルと呼ばれます。

トレーニング サンプルはポリゴン レイヤーまたはラスター上で特定できます。トレーニング サンプルを定義するときに、既存のラスターを参照として指定できます。通常、ラスターの最初の 3 つのレイヤーのカラー合成が背景として表示され、トレーニング サンプルの作成時に囲むエリアを特定するための参照として使用されます。

教師なし分類によるクラスターの作成

教師なし分類の最初のステップはクラスターを作成することです。統計的に、クラスターは自然発生的なデータのグループです。[ISO クラスター] ツールには、入力 ラスター バンド、クラス数、出力シグネチャ ファイルの名前、反復回数、最小クラス サイズ、およびクラスターを計算するサンプル ポイントを収集する間隔が必要です (最後の 3 つのパラメーターについては後述)。

[ISO クラスター] ツールは、特定したクラスターのセルのサブセットについて、多変量統計情報を持つシグネチャ ファイルを返します。得られた計算により、どのセル位置がどのクラスターに属するか、クラスターの平均値、および分散-共分散マトリックスが得られます。この情報が、ASCII シグネチャ ファイルに保存されます。シグネチャ ファイルは、残りの未サンプリング セルのクラスター化と分類に重要です。

クラスまたはクラスターの統計情報の格納: シグネチャ ファイル

シグネチャ ファイルは、着目する各クラスまたは各クラスターの多変量統計情報を格納する ASCII ファイルです。このファイルには各クラスまたは各クラスターの平均値、クラスまたはクラスター内のセルの数、およびクラスまたはクラスターの分散-共分散マトリックスがあります。

シグネチャ ファイルは任意のテキスト エディターで表示できます。

任意のクラスまたはクラスターについて、分散-共分散マトリックスの左上から右下にある対角値は変数の分散値で、バンドのマトリックスの行/列の交点で指定される入力ラスター バンドに対応します。マトリックス内のその他の値はすべて、共分散値です。

教師なし分類でクラスターを決定する手順

教師なし分類でクラスターを作成するために使用するアルゴリズムの名前は、ISO クラスター (Iso Cluster) です。ISO クラスター (Iso Cluster) アルゴリズムの接頭辞「Iso」は、Iterative Self Organizing (ISO: 反復自己組織化) のクラスター化の方法を意味しています。クラスターは、解析エリアのセルのサブセットを使用して計算されます。クラスターの計算はすべて、多変量属性空間にあるセルの値に対して行われます。空間的な特性に基づく計算は行われません。つまり、平均値は、異なる入力バンドの属性値から得られます。分散と共分散の値は、バンド内、およびバンド外の変動から計算されます。

次の例では、K-mean 法、つまり ISO クラスター化の手法を使用しています。方法を理論的に説明するために、2 つのバンドを持つラスターを使用しています。同じ方法が、入力された多数のバンド、または n 次元空間でも使用できます。次の説明は、ISO クラスター化手法をよりよく理解できるように概念的なものです。

  • 空のグラフが作成され、X 軸に最初のバンド値の範囲、Y 軸に 2 番目のバンドの値の範囲がプロットされます。
  • 45 度の直線が作図され、指定したクラス数に分割されます。これらの各線分長の中央のポイントが、クラスの初期平均値です。

クラスの平均値の算出
クラスの平均値が算出されます。

  • 各サンプル セルがグラフにプロットされ、そのポイントから 45 度のライン上にある平均値を示す各中央ポイントまでの距離が得られます。距離の計算には、ピタゴラスの定理を使用します。サンプル ポイントが、平均の中央ポイントが最も近いクラスターに割り当てられます。

各ポイントから平均の中央ポイントまでの距離が計算されます。
各ポイントから平均の中央ポイントまでの距離が計算されます。

  • 次のサンプル ポイントがプロットされ、前述の手順がすべてのサンプル ポイントについて繰り返されます。

すべてのサンプル ポイントについて距離が計算されます。
すべてのサンプル ポイントについて距離が計算されます。

  • 前述のプロセスが反復されます。次の反復の前に、前の反復でクラスターに現在割り当てられているセル位置の値に基づいて、各クラスターについて新しい平均値を持つ中央ポイントが計算されます。各クラスターについて新しい平均値の中央ポイントを使用して、前述の 2 つのステップが繰り返されます。

クラスごとに新しい平均の中央ポイントが計算されます。
クラスごとに新しい平均の中央ポイントが計算されます。

  • 平均値が更新され、前述のステップが繰り返されます。ユーザー指定の反復回数に到達するまで、または反復内の新しい平均値を使用することで、あるクラスターから別のクラスターに変化するセルの割合が 2 % 未満になるまで、平均値を更新する反復プロセスが続行されます。

クラスター化は、各バンド内の値の範囲の影響を受けます。この値の範囲により、平均値からサンプル ポイントまでのユークリッド距離の計算に使用する X 軸と Y 軸の値が決まります。各バンドの属性を同等に考慮するには、教師付き分類と教師なし分類のいずれを実行する場合でも、各バンドの値の範囲を同様にする必要があります。あるバンドの値の範囲が他のバンドに比べて小さい場合、多変量空間のユークリッド距離が小さくなり、いくつかのクラスターの平均値が 0 になることがあります。クラスターの平均値が 0 の場合、最終的な分類、およびシグネチャ ファイルに依存するその他の多変量解析ツールは失敗します。理想的には、すべてのバンドを同じ値の範囲に正規化する必要があります。

関連トピック