欠損値の補完の詳細

[欠損値の補完 (Fill Missing Values)] ツールは、欠損値 (NULL) を推定された値に置き換え、それらの NULL 値がその後の解析に与える影響を最小限に抑えます。 データの欠損には、さまざまな原因があります。 たとえば、センサーが一時的に壊れる、サンプリング ロケーションにアクセスできない、機密情報を保護するためにデータ値が意図的に抑制されるなどによって、データが欠損する場合があります。 フィーチャの 1 つ以上の値が欠損している場合、ほとんどの統計方法は、デフォルトでそのフィーチャを解析から削除します。 そのようにしてフィーチャを削除すると、解析が不完全なデータセットに対して実行されるため、偏りが生じたり、結果の適切性に影響を与える可能性があります。 貴重なデータを捨てることで解析に影響を与えたり、マップにギャップが生じないように、そのデータセットの他の情報または他のデータセット (たとえば、データセットまたはより大きい集約単位) を使用して、欠損データ値を補完することができます。 空間データの場合、空間内の近接フィーチャの値を使用して、欠損値を推定できます。 時空間データの場合も、時間内の近接フィーチャを使用して欠損値を補完することができます。 非空間データの場合、欠損値を含むフィールドのグローバル統計を使用して欠損値を補完することができます。 欠損値を推定して補完する場合、既存の値が維持され、選択した方法に基づいて NULL が置き換えられます。 欠損値が補完されると、そのデータセットを完全なデータセットとして解析できるようになります。

たとえば、米国のデータセットでは、1 人当たりの相対所得に関する 100 年分のデータが 50 の州それぞれに関連付けられていますが、カリフォルニア州は 1 年分のデータが欠落しています (NULL 値)。 時空間キューブを作成しようとすると、データセット内の 1 つの NULL 値のために、カリフォルニア州のすべてのデータが解析から削除されます。 完全な時系列が含まれている必要があるため、カリフォルニア州の他の 99 個の値は、すべて解析から除外されます。 [欠損値の補完 (Fill Missing Values)] ツールは、NULL 値を欠損値の適切な近似で補完し、カリフォルニア州をその後の解析に含めることができるようにします。

結果の解析

このツールは、既存の値および入力された値の完全なセットを含んでいる新しいフィールドに加えて、どの値が推定されたかを示すフィールドも出力します。 このツールは、値が入力されたレコードの総数の割合、欠損値を補完する前後のデータの分布、および補完された値の総数と割合に関する情報を提供するメッセージも出力します。

ベスト プラクティス

このツールが自分のデータに適しているかどうか、およびどのパラメーターを選択するべきかを判断する場合、いくつかのことを考慮する必要があります。

  • 必ず、どの値が欠損しているかを把握しておいてください。 欠損データ値を示すプレースホルダーは、データセットごとに異なる場合があります。 ジオデータベース フィーチャクラスでは、欠損値は <NULL> として格納されるため、明確に認識できます。 しかし、シェープファイルは NULL 値を格納できません。 シェープファイルを作成するツールまたはその他の手順では、NULL 値がゼロとして格納または解釈される場合があります。 または、シェープファイル内の NULL が非常に大きい正または負の数値で示される場合があります。 欠損データ値を知るためのヒントは、対象のフィールドを値の大きい順に並べ替え、次に値の小さい順に並べ替えることです。 NULL 値、多くのゼロ値、極端に大きい値または小さい値を確認することによって、欠損値を示すのに使用されているプレースホルダーに関する手掛かりが得られる場合があります。 メタデータが、欠損データのプレースホルダーを示していることがあります。
  • 欠損している値の数を決定します。 多すぎる値を補完するのは、好ましくありません。 補完しようとする欠損データ値の数に関して絶対的なカットオフはありませんが、データセット内の値のうちの 5 パーセント以下を補完するのが一般的なガイドラインです。
  • 欠損値が存在するロケーションを決定します。 欠損データを含む属性をマッピングし、空間パターンを調べます。 欠損データがクラスタリングされているかどうか、欠損データが分析範囲の周辺または中心部にあるかどうかを確認します。 また、欠損値が主に大きい値のエリアまたは小さい値のエリアのいずれに現れているかを確認します。 これらの状況は、いずれも欠損データのロケーションまたは値にパターンが存在することを示しており、データがランダムに欠損しているのではないことの指標になります。 欠損値の補完は、データがランダムに欠損している場合に、最適に動作します。
  • 値がまだ欠損しているかどうかを決定するために、補完された値の数および割合を確認します。 欠損値が存在する場合、値を補完するのに使用する方法を変更してみます。たとえば、近傍フィーチャの数を増やしたり、近傍範囲のサイズを増やしたりします。 すでに補完された値を使用して欠損値を補完しないように注意してください。 そのようにすることは、本質的に推定値から値を推定することであるため、間違っています。
  • 平均や標準偏差などの記述統計を比較することによって、欠損値を補完する前後のデータの分布を調べたり、ヒストグラムを調べて、曲線の歪みおよび上昇または平坦化を確認します。 最適な解では、形状が類似している分布が得られます。
  • 値を補完するのに使用する方法の局所的または地域的な適用可能性を探します。 値を補完するのに使用した方法が、特定のエリアでは他のエリアよりも適切に動作したということがわかる場合があります。 たとえば、隣接している値の平均を使用して補完しており、レポートされた標準偏差の範囲が広い場合は、近傍範囲の別のタイプや値を補完する別の方法など、使用する方法を変えてみることができます。 理想的には、補完されたすべての値に関して、標準偏差がほぼ同じになり、値を補完するのに使用された近接フィーチャからすべて同じように変化していることを示します。
  • 値が補完されたら、データの使用方法について検討してください。 データを単純にマッピングして、穴のない美しい視覚化を行う場合は、マッピング方法によって、補完された値のわずかな変化を隠すことができます。 たとえば、コロプレス マッピングは、通常、データを複数のクラスに分類し、クラス内の変化が目に見えないようにします。 データが公式の統計の生成に使用される場合、欠損値を補完することによる影響を慎重に調べ、明確に理解する必要があります。
  • 欠損値を補完したことをユーザーに伝えます。 レポートを書く場合は、欠損値を補完するのに使用した方法について記述し、値を補完するための方法を選択する際に行ったすべての仮定について言及します (たとえば、補完された値が過大評価または過小評価されていないことを確認します)。 マップを作成する場合は、(たとえば別のマップ上で) 値が補完されたフィーチャを識別することを検討してください。 カートグラファーも、ハッチング パターン、点のパターン、または独自のフィーチャ アウトラインを使用してポリゴン フィーチャを識別しています。 これらの方法を使用する場合、ポリゴンの塗りつぶしを不明瞭にしたり、塗りつぶし色の見え方が変わることがあるため、注意してください。
  • 時系列的トレンドによる補完方法では、補完対象の NULL 値を含むロケーションを補完するには、時系列の最初と最後に、値を持つ期間が 2 つずつ存在している必要があります。 ただし、最初と最後に値を持つ期間が 2 つずつ存在しているだけでは、必ずしも十分ではありません。 時系列の途中に大量の欠損値が連続して存在している場合、時系列予測ツールセットのツールなどの詳細な解析に対して、内挿された値の信頼性が低くなる場合があります。

補完方法の選択

欠損値を補完する場合、隣接する値の平均値、最小値、最大値、または中央値を使用するなどの、値を補完する方法を決定する必要があります。 補完される値を過小評価したい場合 (たとえば、無料のランチを受け取る学生の数を補完しようとしている場合)、最小値を使用します。 同様に、欠損値を過小評価したくない場合 (たとえば、教育程度の高い人の数を補完する場合)、最大値を使用します。 住宅の価値など、局所的に高いまたは低い外れ値の存在が疑われる場合は、中央値を使用します。 値が近接フィーチャの値に類似するトレンドがある場合は、平均値を使用します。

欠損値の計算に使用される近接フィーチャのセットを定義する方法を決定する必要もあります。 近接フィーチャは、固定された近接フィーチャ数、固定距離の範囲内のすべての近接フィーチャ、隣接している (つまり、境界を共有しているか、角が接している) 近接フィーチャなどの、さまざまな空間リレーションシップに基づいて定義できます。

値を補完する方法および使用する近接フィーチャは、補完されたデータが最終的にどのように使用されるかによって決まります。 たとえば、カートグラファーは、穴のない美しいマップを作成するために、欠損データを含んでいるポリゴンを塗りつぶしたい場合があります。 そのような場合、多数の空間的近接フィーチャの平均を計算するのが効果的です。 住宅の価値に関する欠損データを補完する不動産アナリストは、固定距離の範囲内の近接フィーチャを使用して中央値を計算し、外れ値の影響を防ぎます。

近傍範囲の種類および値を補完する方法の組み合わせを選択する場合、周囲のどのフィーチャが欠損値を含んでいるフィーチャに正当な影響を与えるか、および解析結果を偏らせる可能性が最も低い値を補完する方法に関して検討してください。 たとえば、地方の公衆衛生アナリストについて考えます。このアナリストは、子供の鉛中毒データを国勢調査ブロック グループ レベルで持っていますが、ブロック グループのいくつかには欠損データがあります。 このアナリストは、欠損データを含んでいるブロック グループと境界を共有している隣接するブロック グループを使用することを検討し、欠損データを補完するために周囲の値のうちの最大値を使用することができます。 隣接しているブロック グループは、同じような築年数の住宅を含んでいる可能性があり、築年数は鉛汚染の既知の危険因子であるため、そのようなブロック グループの使用を正当化できます。 欠損値を補完するために周囲のブロック グループの最大値を使用すると、鉛中毒の実際のレベルを過大評価する可能性がありますが、子供の健康が関係しているこの例では、危険を過小評価するよりは過大評価したほうが適切です。

参考資料

空間統計リソース ページ (https://www.esriurl.com/spatialstats) には、空間統計ツールや時空間パターン マイニング ツールの使用に役立つ、次のようなさまざまなリソースが含まれています。

  • 体験チュートリアルおよびレッスン
  • ワークショップ ビデオおよびプレゼンテーション
  • トレーニングおよび Web セミナー
  • 書籍、記事、および技術資料へのリンク
  • サンプル スクリプトとケース スタディ