Estandarizar campo (Administración de datos)

Resumen

Estandariza los valores de los campos al convertirlos en valores que siguen una escala especificada. Entre los métodos de estandarización se encuentran puntuación z, mínimo-máximo, máximo absoluto y estandarización sólida.

Ilustración

Estandarizar los valores de un campo.
Estandarice los valores de un campo utilizando uno de los cuatro métodos.

Uso

  • Hay cuatro métodos de estandarización: Puntuación Z, Mínimo-máximo, Máximo absoluto y Estandarización sólida.

    • El método Puntuación Z mide la diferencia entre un valor y el valor medio de todos los valores del campo utilizando desviaciones estándar, también conocidas como puntuación estándar.
      • Aplicación potencial: evaluar la importancia de un valor en relación con la distribución de los valores en un campo. Por ejemplo, la participación de votantes de un condado se puede evaluar en el contexto de otros condados de todo el país, ayudando a identificar patrones típicos de participación de votantes y condados con una participación significativamente alta y baja de votantes.
      • Consideración: este método espera una distribución normal. Por lo tanto, no se recomienda este método si la distribución de los datos está muy sesgada.
      • Ecuación:Ecuación de Puntuación Z, donde x' es el valor estandarizado, x es el valor original, x̄ es el valor medio (promedio) y σx es la desviación estándar.
    • El método Mínimo-máximo conserva las relaciones entre los valores de datos originales y convierte al mismo tiempo los valores a una escala entre los valores mínimo y máximo especificados por el usuario.
      • Aplicación potencial: a un asesor inmobiliario podría interesarle escalar las características de las viviendas, como el número de habitaciones de una vivienda o la antigüedad de la vivienda en años, a la misma escala antes de utilizar estas características en un modelo, como la herramienta Clasificación y regresión basadas en bosque.
      • Consideración: este enfoque es propenso a ser influido por valores atípicos, o valores extremos, en los datos.
      • Ecuación:Ecuación de Mínimo-máximo, donde x' es el valor estandarizado, x es el valor original, min(x) es el mínimo de los datos, max(x) es el máximo de los datos, a es el mínimo especificado por el usuario y b es el máximo especificado por el usuario.
    • El método Máximo absoluto compara la diferencia entre un valor y el valor máximo absoluto de una distribución, dividiendo cada valor entre el valor máximo absoluto del campo.

      • Aplicación potencial: este método resulta útil cuando se trabaja con datos que tienen un máximo estable y lógico, y se desea comparar cada valor con este máximo. Por ejemplo, el número de votos de un condado no puede contener más votos que el número de personas en edad de votar del condado. El condado con la mayor proporción de votos se convierte en este máximo y el resto de condados se evalúan en relación con la participación máxima absoluta de votantes.
      • Consideración: la escala de salida está entre -1 y 1. Unos valores positivos mayores corresponden a valores cercanos a 1 y unos valores negativos mayores corresponden a valores cercanos a -1.
      • Ecuación:Ecuación de Máximo absoluto, donde x' es el valor estandarizado, x es el valor original y max(|x|) es el máximo de los valores absolutos de los datos.

    • El método Estandarización sólida estandariza los valores de los campos especificados utilizando una variante sólida de la puntuación z. Esta variante utiliza la mediana y el rango entre cuartiles en lugar del valor medio y la desviación estándar.

      • Aplicación potencial: un asesor inmobiliario intenta estimar los valores de las viviendas de una ciudad y un vecindario exclusivo con valores de viviendas extremadamente altos da lugar a valores atípicos en los datos. El asesor utiliza una estandarización sólida para reducir el impacto de estos valores atípicos en la distribución de los valores de las viviendas de la ciudad.
      • Consideración: gracias al uso de la mediana y el rango entre cuartiles, puede ser un método eficaz al intentar reducir la influencia de los valores atípicos en la distribución.
      • Ecuación:Ecuación de Estandarización sólida, donde x' es el valor estandarizado, x es el valor original, median(x) es la mediana de los datos e IQR(x) es el rango entre cuartiles de los datos.

  • Si se proporcionan varios campos, el método de estandarización especificado se aplica a todos los campos.

  • La herramienta modifica los datos de entrada e incorpora los campos estandarizados recién creados a la tabla o clase de entidad de entrada.

  • Para cada campo seleccionado, se proporcionan estadísticas de resumen en los resultados de los mensajes de geoprocesamiento. Entre ellas se incluyen máximo, mínimo, suma, valor medio, desviación estándar, mediana, sesgo y curtosis.

Sintaxis

arcpy.management.StandardizeField(in_table, fields, {method}, {min_value}, {max_value})
ParámetroExplicaciónTipo de datos
in_table

La tabla que contiene el campo con los valores que se van a estandarizar.

Table View; Raster Layer; Mosaic Layer
fields
[[input_field, output_field],...]

Los campos que contienen los valores que se van a estandarizar. Para cada campo, se puede especificar un nombre de campo de salida. Si no se proporciona ningún nombre de campo de salida, la herramienta creará un nombre de campo de salida utilizando el nombre del campo y el método seleccionado.

Value Table
method
(Opcional)

Especifica el método que se utilizará para estandarizar los valores contenidos en los campos especificados.

  • Z-SCORESe utiliza la puntuación estándar, que es el número de desviaciones estándar por encima o por debajo del valor medio. El cálculo es la fórmula de Puntuación Z, que calcula la diferencia entre el valor y el valor medio de los valores de la columna, dividido por la desviación estándar de los valores de la columna. Esta es la opción predeterminada.
  • MIN-MAXLos valores se convierten a una escala entre los valores mínimo y máximo especificados por el usuario.
  • MAXABSCada valor de la columna se divide por el valor máximo absoluto de la columna.
  • ROBUST Se utiliza una variante sólida de la fórmula de Puntuación Z para estandarizar los valores de los campos especificados. Esta variante utiliza la mediana y el rango entre cuartiles en lugar del valor medio y la desviación estándar.
String
min_value
(Opcional)

El valor utilizado por el método MIN-MAX del parámetro method para especificar el valor mínimo en la escala de los valores de salida proporcionados.

Double
max_value
(Opcional)

El valor utilizado por el método MIN-MAX del parámetro method para especificar el valor máximo en la escala de los valores de salida proporcionados.

Double

Salida derivada

NombreExplicaciónTipo de datos
updated_table

La tabla que contiene los nuevos campos codificados.

Vista de tabla

Muestra de código

Ejemplo 1 de StandardizeField (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta StandardizeField.

arcpy.management.StandardizeField("County_VoterTurnout", 
       "voter_turnout voter_turnout_Z_SCORE", "Z-SCORE")
Ejemplo 2 de StandardizeField (script independiente)

El siguiente script independiente muestra cómo utilizar la herramienta StandardizeField.

# Import system modules
import arcpy
try:
    # Set the workspace and input features.
    arcpy.env.workspace = r"C:\\Standardize\\MyData.gdb"
    inputFeatures = ”County_VoterTurnout”
    # Set the input fields that will be standardized
    fields = "votes_total;rawdiff_dem_vs_gop;pctdiff_dem_vs_gop"
    # Set the standardization method.
    method = "ROBUST"
    # Run the Standardize Field tool
    arcpy.management.StandardizeField(inputFeatures, fields, method)
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print the error message.
    print(arcpy.GetMessages())

Entornos

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados