Введение в глубокое обучение
Инструменты машинного обучения уже несколько десятилетий являются основным компонентом пространственного анализа в ГИС. Вы могли использовать машинное обучение в ArcGIS для выполнения классификации изображений, обогащения данных кластеризацией и моделирования пространственных отношений. Машинное обучение – это раздел искусственного интеллекта, в котором структурированные данные обрабатываются с помощью алгоритма для решения задачи. Традиционные структурированные данные требуют, чтобы пользователь помечал данные, например, изображения кошек и собак, чтобы алгоритм понимал характерные признаки каждого типа животных и мог их использовать для автоматической идентификации животных на других изображениях.
Глубокое обучение – это разновидность машинного обучения, которая использует несколько уровней алгоритмов в виде нейронных сетей. Входные данные анализируются через различные слои сети, причем каждый слой определяет конкретные характеристики и закономерности в этих данных. Например, если вы хотите идентифицировать такие объекты, как здания и дороги, модель глубокого обучения будет обучаться с помощью изображений различных зданий и дорог, обрабатывая эти изображения через слои внутри нейронной сети, а затем находя идентификаторы, необходимые для классификации здания или дороги.
Esri разработала инструменты и рабочие процессы для использования последних достижений в области глубокого обучения, которые позволяют получить ответы на некоторые сложные вопросы в приложениях ГИС-приложениях и приложениях дистанционного зондирования. Компьютерное зрение, или способность компьютеров извлекать информацию из цифровых изображений или видео, – это область, которая постепенно переходит от традиционных алгоритмов машинного обучения к методам глубокого обучения. Прежде чем применять глубокое обучение к изображениям в ArcGIS Pro, важно понять различные области применения глубокого обучения для компьютерного зрения.
Применение глубокого обучения для компьютерного зрения
Существует множество задач компьютерного зрения, которые можно решить с помощью нейронных сетей глубокого обучения. Esri разработала инструменты, которые позволяют выполнять классификацию изображений, обнаружение объектов, семантическую сегментацию и сегментацию экземпляров. Все эти задачи компьютерного зрения описаны ниже с примерами дистанционного зондирования и более общим примером компьютерного зрения.
Классификация изображений
Классификация изображений включает присвоение метки или класса цифровому изображению. Например, снимок БПЛА слева внизу может быть помечен как толпа, а цифровая фотография справа – как кошка. Этот тип классификации также известен как классификация объектов или распознавание изображений, и он может быть использован в ГИС для категоризации объектов на изображении.
Выявление объектов
Выявление объектов – это процесс поиска объектов на изображении. Например, на приведенном ниже снимке дистанционного зондирования нейронная сеть обнаружила местоположение самолета. В более общем варианте использования компьютерного зрения модель может выявлять местоположение различных животных. Этот процесс обычно включает в себя построение ограничивающего прямоугольника вокруг интересующих объектов. Он может быть использован в ГИС для определения местоположения конкретных объектов на спутниковых, аэрофото снимках или снимках с БПЛА и нанесения этих объектов на карту.
Семантическая сегментация
Семантическая сегментация происходит, когда каждый пиксел в изображении классифицируется как принадлежащий какому-то классу. Например, на изображении слева внизу дорожные пикселы классифицируются отдельно от не дорожных пикселов. Справа пикселы, составляющие кошку на фотографии, классифицируются как кошка, в то время как другие пикселы на этом изображении относятся к другим классам. В ГИС это часто называют классификацией пикселов, сегментацией изображений или классификацией изображений. Это часто используется для создания карт классификации землепользования.
Сегментация экземпляра
Сегментация экземпляра – это более точный метод обнаружения объектов, в котором рисуется граница каждого экземпляра объекта. Применение этого типа глубокого обучения также известно как сегментация объектов.