Cómo funciona la búsqueda de similitud

La herramienta Búsqueda de similitud identifica qué Entidades candidatas son más parecidas (o menos parecidas) a una o varias Entidades de entrada para coincidencia. La similitud se basa en una lista especificada de atributos numéricos (Atributos de interés). Si se especifica más de una opción Entidades de entrada para coincidencia, la similitud se basa en los promedios de cada Atributo de interés. La clase de entidad de salida (Entidades de salida) contendrá las Entidades de entrada para coincidencia junto con todas las Entidades candidatas coincidentes que se han encontrado, ordenadas por similitud (tal y como especifica el parámetro Más o menos similar). El número de coincidencias devuelto se basa en el valor del parámetro Número de resultados.

Aplicaciones potenciales

  • La herramienta Búsqueda por similitud se puede usar para buscar otras ciudades parecidas a la suya en cuanto a población, educación y proximidad a determinadas ofertas de ocio.
  • Es posible que los oficiales locales deseen promocionar su localidad a empresas potenciales a fin de aumentar los ingresos fiscales. La herramienta Búsqueda por similitud les ayudará a identificar otras poblaciones como las suyas para que puedan compararse en términos de atributos atractivos (como una tasa de delincuencia baja o un crecimiento rápido). También pueden estar interesados en encontrar lugares como los suyos, pero de mayor o menor tamaño (similitud de coseno). Saber que se parecen a lugares más pequeños o más grandes que han tenido buena acogida entre las empresas a las que desean atraer les permitirá distinguir las similitudes haciendo énfasis en las ventajas de ser pequeños (menos congestión, ambiente más acogedor) o de ser más grandes (más clientes potenciales). Estos responsables también pueden estar interesados en ciudades completamente distintas de las suyas. Si alguna de estas ciudades que se parecen poco a las suyas supone una competencia para las empresas que desean seducir, este análisis les proporciona la información que necesitan para presentar una comparativa.
  • Los gestores de recursos humanos pueden estar interesados en justificar la escala salarial de su empresa. Cuando hayan identificado las ciudades que son parecidas en términos de población, coste de vida y servicios, podrá analizar la escala salarial de dichas ciudades para ver si se siguen los mismos parámetros.
  • Un analista especializado de delincuencia puede usar la base de datos para comprobar si un delito forma parte de una tendencia o patrón a mayor escala.
  • Por ejemplo, un programa extraescolar de fomento del deporte tuvo una aceptación excelente en la ciudad A. Los promotores quieren encontrar otras ciudades de características parecidas para implantar el mismo programa.
  • Un organismo encargado de hacer cumplir la ley ha descubierto zonas donde se cultivan o fabrican drogas. Identificar ubicaciones con características similares podría ayudarles a orientar búsquedas futuras.
  • Una gran empresa de venta al por menor tiene varias tiendas de éxito y unas pocas con un rendimiento inferior. Encontrar ubicaciones con una demografía y características contextuales (accesibilidad, visibilidad, empresas complementarias, etc.) similares les ayudará a identificar las mejores ubicaciones de una tienda nueva.

Métodos de geocodificación

La geocodificación puede estar basada en valores de atributos, valores de atributos clasificados, o perfiles de atributos (similitud de coseno). A continuación se describe el algoritmo empleado para cada uno de estos métodos. Para todos los métodos, si existe más de una opción Entidades de entrada para coincidencia, los atributos de todas las entidades se promedian para crear una entidad de destino compuesta que se usará en el proceso de coincidencia: Promedio de atributos de interés

Valores de atributos

Cuando se selecciona Valores de atributo para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés. A continuación, para cada candidato resta los valores estandarizados de los de destino, cuadra las diferencias y suma las diferencias cuadradas. Esta suma se convierte en el índice de similitud para ese candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).

Explorar:

La estandarización de los valores de atributos implica una transformación z en la que la media de todos los valores se resta de cada valor y se divide entre la desviación estándar de todos los valores (tanto Entidades de entrada para coincidencia como Entidades candidatas se incluyen en el cálculo del promedio y la desviación estándar). La estandarización pone todos los atributos en la misma escala aunque estén representados por tipos de números muy diferentes: tasas (número de 0 a 1,0), población (valores superior a 1 millón) y distancias (kilómetros, por ejemplo).

Valores de atributo clasificados

Cuando se selecciona Valores de atributo clasificados para el parámetro Método de coincidencia, la herramienta empezará a clasificar cada uno de los Atributos de interés, tanto para la entidad de destino como para todos los candidatos. A continuación, para cada candidato se suma la diferencia cuadrada de cada atributo en relación con la entidad de destino. Si el valor de la población para el destino es el décimo mayor de todos los candidatos, y la población del candidato que se está teniendo en cuenta es la decimoquinta mayor, la suma de la diferencia cuadrada de población de clasificación de este candidato sería 10 - 15 = -5 y -5**2 es 25. La suma de las diferencias cuadradas de clasificación para todos los Atributos de interés se convierte en el índice de similitud de este candidato. Cuando todos los candidatos se han procesado, se clasifican del índice más pequeño (más similar) al índice más alto (menos similar).

Perfiles de atributos

Cuando se selecciona Perfiles de atributos para el parámetro Método de coincidencia, la herramienta estandariza primero todos los Atributos de interés (se requieren como mínimo dos Atributos de interés para este método). A continuación utiliza las matemáticas de similitud de coseno para comparar el vector de los atributos estandarizados de cada candidato con el vector de los atributos estandarizados de la entidad de destino que se busca. La similitud de coseno de dos vectores, A y B, se calcula como:

Ecuación de similitud de coseno

A la similitud de coseno no le afecta la coincidencia de las magnitudes de atributo, sino que este método se centra más bien en las relaciones entre los atributos. Si ha creado un perfil (gráfico de líneas) de los atributos estandarizados en los vectores que se están comparando (el destino y uno de los candidatos), observará perfiles muy similares o bien perfiles muy diferentes:

Perfiles de atributos
Los perfiles de la primera pareja de atributos son muy similares; los perfiles de la última pareja son bastante distintos.

El índice de similitud de coseno oscila entre 1,0 (similitud perfecta) y -1,0 (disimilitud perfecta) y se notifica en el campo SIMINDEX (Similitud de coseno). Este método de similitud se utiliza para encontrar lugares que tienen las mismas características pero quizá una mayor o menor escala.

Prácticas recomendadas

Representación cartográfica de patrones de similitud

Si se indica el valor cero en el parámetro Número de resultados, la herramienta clasificará todas las entidades candidatas. La salida de este análisis mostrará el patrón espacial de similitud. Tenga en cuenta que cuando clasifique a todos los candidatos, obtendrá información sobre la similitud y la disimilitud.

Mapa de similitud clasificada

Variables espaciales incluidas

Supongamos que conoce las ubicaciones (áreas de polígono) donde una especie concreta en peligro de extinción se está recuperando bien y quiere buscar otras ubicaciones donde dicha población animal también esté prosperando. Debería buscar zonas parecidas a las áreas donde la recuperación está teniendo éxito, pero también deberá buscar zonas lo suficientemente extensas y compactas para garantizar el éxito de la especie. Para este análisis puede calcular una métrica de compactación para cada área poligonal (las mediciones comunes de compactación se basan en el área de un polígono en relación al área de un círculo con el mismo perímetro). A continuación, puede incluir su medición de compactación y un atributo que refleje el tamaño del polígono (Shape_Area) en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda de similitud. El ordenamiento de las diez principales coincidencias de solución tanto en términos de compactación y área le ayudará a identificar las ubicaciones más adecuadas para la reintroducción de especies animales.

Quizá es un minorista interesado en crecer. Si tiene algunas tiendas con un excelente nivel de ventas, puede usar atributos que reflejen las características de éxito clave para ayudar a buscar ubicaciones candidatas para la expansión. Supongamos que los productos que comercializa tienen mejor acogida entre los estudiantes universitarios y quiere evitar zonas cercanas a sus tiendas o a la competencia. Antes de ejecutar la herramienta Búsqueda por similitud puede usar la herramienta Cerca para crear sus variables espaciales: distancia a las universidades o lugares con alta densidad de universitarios, distancia a las tiendas existentes, y distancia a la competencia. A continuación puede incluir estas variables espaciales en el parámetro Campos para añadir a la salida cuando ejecute la herramienta Búsqueda por similitud.