データ エンジニアリングを使用して、データの各フィールドの値の品質や分布を評価することができます。 たとえば、フィールド内の NULL 値の数は、データが欠損しているフィーチャを特定する際のデータ品質指標として役立つ場合があります。 平均値、標準偏差、尖度などの説明的な統計情報は、フィールド内の値の分布を理解するだけでなく、分析でフィールドを使用する際の手順を評価するのに役立つ場合があります。
ArcGIS Pro の [データ エンジニアリング] ビューでは、データ内の対象フィールドの説明的な統計情報や指標を、各フィールドを行、各統計を列として示した表形式で表示することができます。 このテーブルを使用して、選択したフィールドの各指標やプロパティに関連するシンボルの設定、チャートの作成、ジオプロセシング ツールの実行などにアクセスし、データの詳細な調査や問題の修正を行うことができます。
フィールドの選択と統計情報の計算
[データ エンジニアリング] ビューを開くと、データ内のフィールドを示すパネルと、フィールドの統計情報テーブルを示すパネル (フィールドが選択および計算済みの場合) の 2 つのパネルが表示されます。
最初に、フィールド パネルで 1 つのフィールドをクリックし、Ctrl キーを押しながらクリックして個々のフィールドを選択するか、Shift キーを押しながらクリックして複数のフィールドを選択します。 次に、フィールドを統計情報パネルにドラッグします。
または、選択したフィールドを右クリックして、[統計情報への追加] または [統計情報への追加および計算] をクリックします。
フィールドが追加されると、統計情報テーブルの行として表示されます。 各行には、選択したフィールドのフィールド名、エイリアス、およびデータ タイプが含まれます。 さらに、一連の統計情報列が表示され、計算が実行された後は選択したフィールドに関する追加情報が表示されます。
選択したフィールドの統計情報列に情報を入力するには、[計算] ボタンをクリックします。
統計情報列に、データの各フィールドの情報が入力されます。
レコードを選択した場合、データ内の選択したレコードに対応する結果が表示されます。 統計情報テーブルの下に、選択したフィーチャの数と、統計情報の計算に使用されたフィーチャの数が表示されます。
フィーチャ レイヤーやテーブルに保存されていない編集がある場合、保存されていない編集内容が計算に使用されます。
統計情報のタイプ
データ エンジニアリング ビューでは、データの各フィールドの統計情報およびデータの品質指標を計算し、テーブルの列として表示することができます。 値が計算されたら、各フィールドの統計情報セルを右クリックして、統計情報に関連する追加機能にアクセスできます。 一部の機能は、入力データを変更するジオプロセシング ツールを使用します。 データが編集不可の場合は、データ エンジニアリングを開始する前に、編集可能なデータのコピーを作成します。
注意:
統計情報テーブルの結果を丸める方法は、値の大きさによって異なります。 小数点以下の桁数がある統計情報データでは、少なくとも小数点以下 1 桁は表示されますが、以降の小数点以下の桁数は、丸め誤差を 1% 未満に維持できる場合にのみ追加されます。
統計情報 | 説明 | 適用可能なデータ タイプ | メニュー オプション |
---|---|---|---|
NULL の数 | フィールドに NULL 値を含むレコード件数。 NULL 値を含むレコードを選択するには、この列のセルを右クリックします。 注意:レイヤーのシンボルが NULL 値を表示するように構成されていない場合、選択セットがマップ上に表示されないことがあります。 NULL 値を含むフィーチャを表示するには、範囲外の値を表示するようシンボルを構成します。 | 数値、テキスト、日付 |
|
チャートのプレビュー | フィールド内の値の分布を視覚的に表現します。 数値フィールド (short、long、float、double) にはヒストグラム、カテゴリ フィールド (text) にはバー チャート、日付タイプ フィールドにはライン チャートが表示されます。 チャート プレビュー列を使用して、最初の調査を行います。 対象フィールドのチャートを作成するには、この列のセルを右クリックします。 注意:デフォルトでは、ヒストグラムとライン チャートは 20 個のビンで表示されます。 データの密度によっては、データを含まないビンが存在する場合があり、値が空のビンはチャートのプレビューで 0 として扱われます。 詳細レベルを変更するには、チャート プレビューを右クリックし、チャートを作成します。 | 数値、テキスト、日付 |
|
最小 | フィールドの最小値。 最小値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
最大 | フィールドの最大値。 最大値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
平均 | フィールド内のすべての値の平均値。 平均とは分布内での平均を取った値を示し、値の合計をフィールド内の値の合計数で割って計算します。 平均は、分布の中心傾向を示す最も一般的な尺度です。 日付フィールドの平均日付を計算する際、ミリ秒単位で計算された日付と基準日 (例: 1900-01-01) との差を計算することで、各日付が数値に変換されます。 すべてのミリ秒値の合計を日付値の総計で割ったものが平均日付となり、表示のために最も近い秒に丸められます。 注意:平均日付は、フィールド内の値と同じ時間分解能 (分、秒、ミリ秒) でない場合があります。 平均を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
標準偏差 | フィールド内の値の標準偏差。 標準偏差とは、分布がどれくらい外れているかを示す尺度のことです。 分散の平方根として計算され、分散はフィールドの平均値から各値までの差の二乗の平均です。 | 数値 | |
中央値 | フィールド内のすべての値の中央値。 中央値とは、並べ替えた値のリストで中央に位置する値を示します。 値の数が偶数の場合、中央値は分布内の 2 つの中央値の間の平均値となります。 中央値を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
個数 | フィールド内の NULL 値でない値の数を計算します。 | 数値、テキスト、日付 |
|
個別値の数 | フィールド内の個別値の数。 | 数値、テキスト、日付 | 一意の操作が存在しない |
モード | フィールド内のすべての値のモード。 モードとは、フィールド内で最も頻繁に出現する値を指します。 同数の場合、つまりフィールドで最も頻繁に出現する値が複数の値に対応する際は、セルに [<複数の値>] と表示されます。 モードを含むレコードを選択するには、この列のセルを右クリックします。 | 数値、テキスト、日付 |
|
Least Common | フィールド内の最も一般的でない値。 同数の場合、つまりフィールドで最も一般的でない値が複数の値に対応する際は、セルに [<複数の値>] と表示されます。 最も一般的でない値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、テキスト、日付 |
|
外れ値 | フィールドに外れ値を含むレコード件数。 外れ値は、選択したフィールドの第三四分位以上または第一四分位以下の四分位範囲の 1.5 倍以上の値を指します。 外れ値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値 |
|
合計 | フィールド内のすべての値の合計。 | 数値 | 一意の操作が存在しない |
範囲 | フィールド内の最小値と最大値の差。 | 数値 | 一意の操作が存在しない |
四分位範囲 | フィールド内の第一四分位から第三四分位の範囲。 四分位は、並べ替えられた値のリストを、同数の値が含まれる 4 つのグループに分割します。 第一四分位値は、昇順での第 1 グループの上限値で、第三四分位値は第 3 グループの上限値です。 この範囲内の値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値 | |
第一四分位 | フィールド内の第一四分位の値。 四分位は、並べ替えられた値のリストを、同数の値が含まれる 4 つのグループに分割します。 第一四分位値は、昇順での第 1 グループの上限値です。 同数の場合、対応するすべての値の平均値が表示されます。 第一四分位を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 | |
第三四分位 | フィールド内の第三四分位の値。 四分位は、並べ替えられた値のリストを、同数の値が含まれる 4 つのグループに分割します。 第三四分位は第 3 グループの上限値です。 同数の場合、対応するすべての値の平均値が表示されます。 第三四分位を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 | |
変動係数 | フィールド内の値の変動係数。 変動係数は、値の相対的な広がりを示す尺度です。 標準偏差をフィールドの平均値で割った値として計算されます。 常にデータの範囲という観点で考慮する必要がある標準偏差とは異なり、変動係数を使用すると、さまざまな範囲や平均値を含むデータ シリーズを比較できます。 | 数値 | |
歪度 | フィールド内の値の歪度。 歪度は、分布の対称性の尺度です。 歪度は、正規分布のように分布が左右対称であれば 0 (または 0 に近い値) になります。 左側の裾が長い分布は負の歪度を示し、右側の裾が長い分布は正の歪度を示します。 歪度は、3 次モーメント (データ値の 3 乗の平均) を標準偏差の 3 乗で割って計算されます。 | 数値 | |
尖度 | フィールド内の値の尖度。 尖度は、正規分布の裾と比較した分布の裾の重さを表し、極値の頻度を特定するのに役立ちます。 尖度が 3 未満の分布は正規分布に比べて裾が軽く極値も少なくなり、尖度が 3 以上の分布は正規分布に比べて裾が重く、極値も多くなります。 尖度は、4 次モーメント (データ値の期待値の 4 乗) を標準偏差の 4 乗で割って計算されます。 | 数値 |
対話形式の統計情報テーブル
統計情報テーブルは対話形式です。 セルやヘッダーを右クリックするか、ツールバーを使用して機能にアクセスできます。
フィールドの操作
行ヘッダーを右クリックすると、選択したフィールドに適用される機能にアクセスできます。機能は次のとおりです。
- [チャートの作成] - 選択したフィールドを使用してチャートを作成します。 データ タイプに応じた推奨事項が表示されます。
- [クリーン]、[構築]、[統合]、および [フォーマット] - ジオプロセシング ツールにアクセスして、データを準備します。 これらのオプションについては、「データの準備」をご参照ください。
- [フィールドの削除] - 統計情報テーブルからフィールドを削除します。
注意:
入力データを変更するほとんどのジオプロセシング操作を取り消すことはできません。
特定のデータ タイプの表示
統計情報テーブル ツールバーを使用して、データ タイプに応じて表示されるフィールドや統計情報列を指定できます。
たとえば、[テキスト] オプションをクリックすると、データ タイプがテキストのフィールドを削除することができます。
統計情報テーブルからデータ タイプを削除すると、削除されたデータ タイプに固有の列も削除されます。 これにより、対象アイテムのテーブルを確認しやすくなります。 たとえば、日付タイプのフィールドのみを表示する場合、歪度や尖度などの分布を表す列は省略されるため、列数は対象の列のみに絞られます。
列の並べ替え、非表示、固定、および順序変更
列ヘッダーのオプションを使用して、テーブルの列を並べ替え、非表示、および固定することができます。
並べ替えによって、計算済みの統計情報の値で行の順序を変更することができます。 たとえば、[NULL 値の数] 列でフィールドを並べ替えることで、データが欠損している可能性のあるフィールドを確認できます。
注意:
並べ替えることができるのは、テーブルのフィールドが単一のデータ タイプである場合のみです。 ツールバーの表示オプションを使用して、特定のデータ タイプにフィルタリングしてから並べ替えます。
列を非表示にするには、[列の非表示] をクリックします。 これにより、ビューから列が削除されます。 非表示になっているすべての列を表示するには、[すべての列を表示] をクリックします。
[固定/解除] をクリックすると、列が統計情報テーブルの先頭に移動して固定され、テーブルを水平方向にスクロールしても列が表示されるようになります。
列の順序を変更するには、列ヘッダーをクリックして新しい場所にドラッグします。
参照先
- Sheskin, D.J. (2000). "Handbook of Parametric and Nonparametric Statistical Procedures." Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 July 2019. https://ieeexplore.ieee.org/document/8766229.