Introducción al aprendizaje profundo

Disponible con licencia de Image Analyst.

Las herramientas de aprendizaje automático han sido un componente principal del análisis espacial en SIG durante décadas. Ha sido capaz de utilizar el aprendizaje automático en ArcGIS para realizar la clasificación de imágenes, enriquecer datos con clustering y modelar relaciones espaciales. El aprendizaje de máquina es una rama de la inteligencia artificial en la que los datos estructurados se procesan con un algoritmo para resolver un problema. Los datos estructurados tradicionales requieren que una persona etiquete los datos, por ejemplo, imágenes de gatos y perros, de modo que las entidades específicas de cada tipo de animal se puedan entender en el algoritmo y utilizar para identificar a estos animales en otras imágenes.

El aprendizaje profundo es un subconjunto del aprendizaje automático que utiliza varias capas de algoritmos en forma de redes neurales. Los datos de entrada se analizan a través de distintas capas de la red, y cada capa define entidades y patrones específicos en los datos. Por ejemplo, si desea identificar entidades como edificios y carreteras, el modelo de aprendizaje profundo se entrenaría con imágenes de diferentes edificios y carreteras, procesando las imágenes a través de capas dentro de la red neuronal y, a continuación, buscando los identificadores necesarios para clasificar un edificio o carretera.

Esri ha desarrollado herramientas y flujos de trabajo para utilizar las últimas innovaciones en aprendizaje profundo a fin de responder a algunas de las preguntas más importantes en aplicaciones de SIG y teledetección. La visión informática o la capacidad de los equipos informáticos para comprender las imágenes o vídeos digitales es un área que ha pasado de los algoritmos de aprendizaje automático tradicionales a métodos de aprendizaje profundo. Antes de aplicar el aprendizaje profundo a las imágenes en ArcGIS Pro, es importante comprender las distintas aplicaciones del aprendizaje profundo para la visión informática.

Aplicaciones de aprendizaje profundo para la visión informática

Hay muchas tareas de visión informática que se pueden llevar a cabo con redes neuronales de aprendizaje profundo. Esri ha desarrollado herramientas que permiten realizar la clasificación de imágenes, la detección de objetos, la segmentación semántica y la segmentación de instancias. Todas estas tareas de visión informática se describen a continuación, cada una con un ejemplo de teledetección y un ejemplo de visión informática más general.

Clasificación de imágenes en visión informática

La clasificación de imágenes implica asignar una etiqueta o clase a una imagen digital completa. Por ejemplo, la imagen del dron de la izquierda podría estar etiquetada como multitud y la foto digital de la derecha se etiquetaría como felino. Este tipo de clasificación también se conoce como clasificación de objetos o reconocimiento de imágenes y se puede utilizar en SIG para categorizar entidades en una imagen. En ArcGIS Pro, este proceso se puede llevar a cabo con la herramienta Clasificar objetos con aprendizaje profundo.

Detección de objetos en visión informática

La detección de objetos es el proceso de localización de entidades dentro de una imagen. Por ejemplo, en la imagen de teledetección anterior, la red neuronal encontró la ubicación de un avión. En un caso de uso más general de visión informática, un modelo puede detectar la ubicación de diferentes animales. Este proceso normalmente implica dibujar un cuadro de delimitación alrededor de las entidades de interés y se puede utilizar en SIG para localizar entidades específicas en imágenes de satélite, aéreas o tomadas por drones, así como para trazar esas entidades en un mapa. En ArcGIS Pro, puede utilizar la herramienta Detectar objetos con aprendizaje profundo para detectar objetos en una imagen.

Segmentación semántica en visión informática

La segmentación semántica se produce cuando cada píxel de una imagen se clasifica como perteneciente a una clase. Por ejemplo, en la imagen de la izquierda anterior, los píxeles de carretera se clasifican por separado de los píxeles que no son de carretera. A la derecha, los píxeles que forman un felino en una foto se clasifican como felino, mientras que los otros píxeles de la imagen pertenecen a otras clases. En SIG, esto se conoce a menudo como clasificación de píxeles, segmentación de imágenes o clasificación de imágenes, y a menudo se utiliza para crear mapas de clasificación de uso del suelo. En ArcGIS Pro, puede utilizar la herramienta Clasificar píxeles con aprendizaje profundo para la segmentación semántica.

Segmentación de instancias en visión informática

La segmentación de instancias es un método de detección de objetos más preciso en el que se dibuja el límite de cada instancia de objeto. Este tipo de aplicación de aprendizaje profundo también se conoce como segmentación de objetos.

Aprendizaje profundo en ArcGIS Pro

Para obtener más información sobre cómo realizar aprendizaje profundo en ArcGIS Pro, consulte Aprendizaje profundo en ArcGIS Pro.

Para obtener una lista de las herramientas de geoprocesamiento disponibles para aprendizaje profundo, consulte Descripción general del conjunto de herramientas Aprendizaje profundo.

Temas relacionados