データ エンジニアリングを使用して、データの各フィールドの値の品質や分布を評価することができます。 たとえば、フィールド内の NULL 値の数は、データが欠損しているフィーチャを特定する際のデータ品質指標として役立つ場合があります。 平均、標準偏差、尖度などの説明的な統計は、フィールド内の値の分布を理解するだけでなく、分析でフィールドを使用する際の手順を評価するのに役立つ場合があります。
ArcGIS Pro のデータ エンジニアリング ビューでは、データ内の対象フィールドについて説明的な統計や指標をテーブルの形式で表示できます。 各フィールドは行として表示され、それぞれの統計は列として表示されます。 このテーブルを使用して、選択したフィールドの各指標やプロパティに関連するシンボルの設定、チャートの作成、ジオプロセシング ツールの実行などを行い、データの調査や問題の修正を行うことができます。
フィールドの選択と統計の計算
データ エンジニアリング ビューを開くと、データ内のフィールドを示すパネルと、フィールドの統計テーブルを示すパネル (フィールドが選択および計算済みの場合) の 2 つのパネルが表示されます。
最初に、フィールド パネルで 1 つのフィールドをクリックし、Ctrl キーを押しながらクリックして個々のフィールドを選択するか、Shift キーを押しながらクリックして複数のフィールドを選択します。 次に、フィールドを統計パネルにドラッグします。
または、選択したフィールドを右クリックして、[統計への追加] または [統計への追加と計算] をクリックします。
注意:
フィールドを追加する前に、[フィールド パネル] のツールバーにある [フィールドの追加と統計の計算] ボタン をクリックするか、空の統計パネルの中央にある [すべてのフィールドの追加と計算] ボタンをクリックし、1 つのアクションですべてのフィールドを追加および計算することもできます。
フィールドが追加されると、統計テーブルの行として表示されます。 各行には、選択したフィールドのフィールド名、エイリアス、およびデータ タイプが含まれます。 さらに、一連の統計列が表示され、計算が実行された後は選択したフィールドに関する追加情報が表示されます。
選択したフィールドの統計列に値を入力するには、[計算] ボタンをクリックします。 統計の計算中は [計算] ボタンが [キャンセル] ボタンに変わり、これをクリックすることで計算をキャンセルすることができます。
統計列に、データの各フィールドの情報が入力されます。
レコードを選択した場合、データ内の選択したレコードに対応する結果が表示されます。 統計テーブルの下に、選択したフィーチャの数と、統計の計算に使用されたフィーチャの数が表示されます。
フィーチャ レイヤーやテーブルに保存されていない編集がある場合、保存されていない編集内容が計算に使用されます。
統計テーブルを水平スクロールするには、Shift キーを押しながらマウス ホイールを動かします。
統計のタイプ
データ エンジニアリング ビューでは、データの各フィールドの統計およびデータの品質指標を計算し、テーブルの列として表示することができます。 テーブルに表示される統計のヘッダー名のいくつかは省略表記されます。 ヘッダーの上にポインターを置くと、統計の名前がすべて表示されます。 統計テーブルの結果は、小数点以下 6 桁まで表示されます。 セルを右クリックして [コピー] を選ぶと、未加工の値をコピーできます。
注意:
データ タイプが timestamp offset または time only のフィールドについては、次の点を考慮してください:
- データ タイプが timestamp offset のフィールドの統計は UTC (オフセット +00:00:00) で計算され、表示されます。
- データ タイプが time only のフィールドの統計は、円周統計ではなく線形統計です。
値が計算されたら、各フィールドの統計セルを右クリックして、統計に関連する追加機能にアクセスできます。 一部の機能は、入力データを変更するジオプロセシング ツールを使用します。 データが編集不可の場合は、データ エンジニアリングを開始する前に、編集可能なデータのコピーを作成します。
統計 | 説明 | 適用可能なデータ タイプ | メニュー オプション |
---|---|---|---|
Null | フィールドに NULL 値を含むレコードの件数と総数における割合。 NULL 値を含むレコードを選択するには、この列のセルを右クリックします。 注意:レイヤーのシンボルが NULL 値を表示するように構成されていない場合、選択セットがマップ上に表示されないことがあります。 NULL 値を含むフィーチャを表示するには、範囲外の値を表示するようシンボルを構成します。 | 数値、テキスト、日付 |
|
チャートのプレビュー | フィールド内の値の分布を視覚的に表現します。 数値フィールド (short、long、big integer、float、double) にはヒストグラム、カテゴリ フィールド (text) にはバー チャート、日付タイプ フィールド (date、date only、time only、timestamp offset) にはライン チャートが表示されます。 チャート プレビュー列を使用して、最初の調査を行います。 対象フィールドのチャートを作成するには、この列のセルを右クリックします。 注意:デフォルトでは、ヒストグラムとライン チャートは 20 個のビンで表示されます。 データの密度によっては、データを含まないビンが存在する場合があり、値が空のビンはチャートのプレビューで 0 として扱われます。 詳細レベルを変更するには、チャート プレビューを右クリックし、チャートを作成します。 バー チャートの場合、チャート プレビューでは Null 値はカテゴリと見なされませんが、完全なチャートには Null 値のカテゴリがあります。 バー チャートとライン チャートの上にポインターを置くと、追加情報を示すツールチップが表示されます。 バー チャートのツールチップには、最も頻繁に出現するカテゴリが表示されます。ライン チャートのツールチップには、チャートの間隔の数と長さが表示されます。 注意:日付フィールドの間隔の説明では、1 か月は 30 日とみなされます。 たとえば、3.2 か月の間隔は 96 日に相当します。 | 数値、テキスト、日付 |
|
[最小] (Min) | フィールドの最小値。 最小値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
[最大] (Max) | フィールドの最大値。 最大値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
平均 | フィールド内のすべての値の平均値。 平均とは分布内での平均を取った値を示し、値の合計をフィールド内の値の合計数で割って計算します。 平均は、分布の中心傾向を示す最も一般的な尺度です。 日付フィールドの平均日付を計算する際、ミリ秒単位で計算された日付と基準日 (例: 1900-01-01) との差を計算することで、各日付が数値に変換されます。 すべてのミリ秒値の合計を日付値の総数で割ったものが平均日数となり、最も近い秒に丸めて表示されます。 データ タイプが date only のフィールドでは、計算のとき時刻が真夜中と想定されます。 注意:平均日付は、フィールド内の値と同じ時間分解能 (分、秒、ミリ秒) でない場合があります。 平均を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
[標準偏差] (標準 偏差) | フィールド内の値の標準偏差。 標準偏差とは、分布がどれくらい外れているかを示す尺度のことです。 分散の平方根として計算され、分散はフィールドの平均値から各値までの差の二乗の平均です。 | 数値 | |
中央値 | フィールド内のすべての値の中央値。 中央値とは、並べ替えた値のリストで中央に位置する値を示します。 値の数が偶数の場合、中央値は分布内の 2 つの中央値の間の平均値となります。 中央値を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 |
|
個数 | このフィールド内の NULL 値でない値の数と総数における割合。 | 数値、テキスト、日付 |
|
[個別値の数] (固有値) | フィールド内の個別値の数。 | 数値、テキスト、日付 | 一意の操作が存在しない |
最頻値 | フィールド内のすべての値の最頻値。 最頻値とは、フィールド内で最も頻繁に出現する値を指します。 同数の場合、つまりフィールドで最も頻繁に出現する値が複数の値に対応する際は、セルに [複数の値] と表示されます。セルにカーソルを合わせると、モード値とその頻度が表示されます。 フィールドのすべての値が一意の場合、セルには [すべての個別値] と表示されます。 モードを含むレコードを選択するには、この列のセルを右クリックします。 | 数値、テキスト、日付 |
|
最少頻値 | フィールド内の最も一般的でない値。 同数の場合、つまりフィールドで最も一般的でない値が複数の値に対応する際は、セルに [複数の値] と表示されます。セルにカーソルを合わせると、最も一般的でない値とその頻度が表示されます。 フィールドのすべての値が一意の場合、セルには [すべての個別値] と表示されます。 最も一般的でない値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、テキスト、日付 |
|
外れ値 | フィールドに外れ値を含むレコード件数。 外れ値は、選択したフィールドの第三四分位以上または第一四分位以下の四分位範囲の 1.5 倍以上の値を指します。 外れ値 (または外れ値以外のすべての値) を含むレコードを選択するには、この列のセルを右クリックします。 | 数値 |
|
合計 | フィールド内のすべての値の合計。 | 数値 | 一意の操作が存在しない |
範囲 | フィールド内の最小値と最大値の差。 日付フィールドでは、範囲はフィールドで見つかった最も古い日付と最新の日付の間の期間を示します。 注意:日付フィールド範囲では、1 か月は 30 日とみなされます。 たとえば、3.2 か月の範囲は 96 日に相当します。 | 数値、日付 | 一意の操作が存在しない |
[四分位範囲] (IQR) | フィールド内の第一四分位から第三四分位の範囲。 四分位は、並べ替えられた値のリストを、同数の値が含まれる 4 つのグループに分割します。 第一四分位値は、昇順での第 1 グループの上限値で、第三四分位値は第 3 グループの上限値です。 この範囲内の値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値 | |
[第一四分位] (Q1) | フィールド内の第一四分位の値。 第一四分位は、25 パーセンタイルの値であり、昇順での下位 4 分の 1 のデータの上限値です。 第一四分位が、2 つの値の中間に位置する場合、2 つの値の間に内挿することによって値が計算されます。 第一四分位を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 | |
[第三四分位] (Q3) | フィールド内の第三四分位の値。 第三四分位は、75 パーセンタイルの値であり、昇順での下位 4 分の 3 のデータの上限値です。 第三四分位が、2 つの値の中間に位置する場合、2 つの値の間に内挿することによって値が計算されます。 第三四分位を上回る値と下回る値を含むレコードを選択するには、この列のセルを右クリックします。 | 数値、日付 | |
[変動係数] (CV) | フィールド内の値の変動係数。 変動係数は、値の相対的な広がりを示す尺度です。 標準偏差をフィールドの平均値で割った値として計算されます。 常にデータの範囲という観点で考慮する必要がある標準偏差とは異なり、変動係数を使用すると、さまざまな範囲や平均値を含むデータ シリーズを比較できます。 変動係数は、平均値がゼロに等しい場合は計算されません。 平均値がゼロに近く、データセットに正の値と負の値の両方がある場合、変動係数は意味のある解釈ができません。 | 数値 | |
歪度 | フィールド内の値の歪度。 歪度は、分布の対称性の尺度です。 歪度は、正規分布のように分布が左右対称であれば 0 (または 0 に近い値) になります。 左側の裾が長い分布は負の歪度を示し、右側の裾が長い分布は正の歪度を示します。 歪度は、3 次モーメント (データ値の 3 乗の平均) を標準偏差の 3 乗で割って計算されます。 | 数値 | |
尖度 | フィールド内の値の尖度。 尖度は、正規分布の裾と比較した分布の裾の重さを表し、極値の頻度を特定するのに役立ちます。 尖度が 3 未満の分布は正規分布に比べて裾が軽く極値も少なくなり、尖度が 3 以上の分布は正規分布に比べて裾が重く、極値も多くなります。 尖度は、4 次モーメント (データ値の期待値の 4 乗) を標準偏差の 4 乗で割って計算されます。 | 数値 |
対話形式の統計テーブル
統計テーブルは対話形式です。 セルやヘッダーを右クリックするか、ツールバーを使用して機能にアクセスできます。
フィールドの操作
行ヘッダーを右クリックすると、選択したフィールドに適用される機能にアクセスできます。機能は次のとおりです。
- [チャートの作成] - 選択したフィールドを使用してチャートを作成します。 データ タイプに応じた推奨事項が表示されます。
- [フィールド] - フィールド ビューを開き、現在のフィールドをビューのアクティブ フィールドとして設定します。
- [属性テーブル] - 属性テーブルを開き、現在のフィールドを属性テーブルのアクティブ フィールドとして設定します。
- [クリーン]、[構築]、[統合]、および [フォーマット] - ジオプロセシング ツールにアクセスして、データを準備します。 これらのオプションについては、「データの準備」をご参照ください。
- [フィールドの削除] - 統計テーブルからフィールドを削除してその統計を消去します。
注意:
入力データを変更するほとんどのジオプロセシング操作を取り消すことはできません。
セルの操作
セルを右クリックすると、選択したセルに適用される機能にアクセスできます。 [コピー] を使用して、セルの値をクリップボードにコピーできます。 [チャートのプレビュー] 列のセルでは、セルのデフォルト チャートを開くか、セルのデータ タイプに適したカタログを作成できます。 その他すべての列では、状況に応じた選択とジオプロセシング ツール オプションを使用できます。 たとえば、[標準偏差] 列では、平均値の 1、2、または 3 標準偏差内のレコードを選択でき、[フィールドの標準化 (Standardize Field)] ツールと [フィールドの変換 (Transform Field)] ツールへのリンクが含まれています。 各列で適用できるすべてのオプションと関数のリストについては、上記の「統計のタイプ」セクションをご参照ください。
注意:
状況に応じた選択は、次の 2 つのケースで無効になります。
- 選択に対して計算された統計が実行された場合。 レイヤーの選択から、計算された統計の選択を行うには、選択レイヤーを作成します。
- 選択されたセルのフィールドのデータ タイプが float または double のとき。
特定のデータ タイプの表示
統計テーブル ツールバーを使用して、データ タイプに応じて表示されるフィールドや統計列を指定できます。
たとえば、[テキスト] ボタンをクリックすると、データ タイプがテキストのフィールドを削除することができます。 [数値] ボタンをクリックすると、データ タイプ short、long、big integer、float、double のフィールドの表示/非表示が切り替わります。 [日付] ボタンをクリックすると、データ タイプ date、date only、time only、timestamp offset のフィールドの表示/非表示が切り替わります。
統計テーブルからデータ タイプを削除すると、削除されたデータ タイプに固有の列も削除されます。 これにより、対象アイテムのテーブルを確認しやすくなります。 たとえば、日付タイプのフィールドのみを表示する場合、歪度や尖度などの分布を表す列は省略されるため、列数は対象の列のみに絞られます。
列の並べ替え、非表示、固定、および順序変更
デフォルトでは、フィールドは属性テーブルに表示される順序で表示されます。 列ヘッダーのオプションを使用して、テーブルの列を並べ替え、非表示、および固定することができます。
並べ替えによって、計算済みの統計の値で行の順序を変更することができます。 たとえば、[Null] 列でフィールドを並べ替えることで、データが欠損している可能性のあるフィールドを確認できます。
注意:
並べ替えることができるのは、テーブルのフィールドが単一のデータ タイプである場合のみです。 ツールバーの表示オプションを使用して、特定のデータ タイプにフィルタリングしてから並べ替えます。 統計テーブルに新しいフィールドが追加されるたびに、並べ替え順がデフォルトにリセットされます。
[固定/解除] をクリックすると、列が統計テーブルの先頭に移動して固定され、テーブルを水平方向にスクロールしても列が表示されるようになります。 列の順序を変更するには、列ヘッダーを新しい場所にドラッグします。
列を非表示にするには、[列の非表示] をクリックします。 これにより、ビューから列が削除されます。 非表示になっているすべての列を表示するには、[すべての列を表示] をクリックします。
すべてのフィールドとその統計を統計テーブルから削除するには、[すべてのフィールドを削除] をクリックします。 削除したフィールドを統計テーブルに再び追加する場合、[計算] ボタンを再びクリックしてその統計を表示する必要があります。
統計のエクスポート
ArcGIS Pro の他の部分で統計を使用するには、統計をスタンドアロン テーブルとして保存します。 [統計をテーブルとしてエクスポート] をクリックして [フィールド統計 → テーブル(Field Statistics To Table)] ツールを開きます。 このオプションでは、統計を 1 つのテーブルとして、またはデータ タイプごとに個別のテーブルとしてエクスポートすることができます。 このツールは、データ タイプ big integer、date only、time only、timestamp offset のフィールドの統計をサポートしていません。
参考文献
- Sheskin, D.J. (2000). "Handbook of Parametric and Nonparametric Statistical Procedures." Second Edition. Boca Raton, Florida: Chapman & Hall/CRC. ISBN: 978-1-58488-814-7.
- UCLA: Statistical Consulting Group.
"IEEE Standard for Floating-Point Arithmetic." IEEE Std 754-2019 (Revision of IEEE 754-2008), vol., no., pp.1-84, 22 July 2019. https://ieeexplore.ieee.org/document/8766229.