Тренировать модель глубокого обучения (Image Analyst)

Доступно с лицензией Image Analyst.

Краткая информация

Тренирует модель глубокого обучения с использованием результатов работы инструмента Экспорт обучающих данных для глубокого обучения.

Использование

  • Этот инструмент тренирует модель глубокого обучения с использованием сред глубокого обучения.

  • Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.

  • Если вы будете обучать модели в автономной среде, см. дополнительную информацию в разделе Установка для автономной среды.

  • Этот инструмент также можно использовать для тонкой настройки существующей обученной модели. Например, существующую модель, обученную для автомобилей, можно настроить для обучения модели идентификации грузовиков.

  • Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.

  • Входные обучающие данные для этого инструмента должны включать папки с изображениями и метками, созданными с помощью инструмента Экспорт обучающих данных для глубокого обучения.

  • Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.

  • Дополнительную информацию о глубоком обучении см. в разделе Глубокое обучение в ArcGIS Pro.

Параметры

ПодписьОписаниеТип данных
Входные обучающие данные

Папки, содержащие кусочки изображений, метки и статистику, необходимые для обучения модели. Это результат работы инструмента Экспорт обучающих данных для глубокого обучения.

При соблюдении всех следующих условий поддерживаются несколько входных папок:

  • Формат метаданных должен быть классифицированными листами, листами с метками, листами с несколькими метками, классами визуальных объектов Pascal или масками RCNN.
  • Все обучающие данные должны иметь одинаковый формат метаданных.
  • Все обучающие данные должны иметь одинаковое количество каналов.
  • Все обучающие данные должны иметь одинаковый размер листа.

Folder
Выходная модель

Расположение выходной папки, в которой будет храниться обученная модель.

Folder
Максимальное число периодов времени
(Дополнительный)

Максимальное количество периодов времени, для которых будет обучаться модель. Максимальный период времени, равный единице, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию равно 20.

Long
Тип модели
(Дополнительный)

Указывает тип модели, который будет использоваться для обучения модели глубокого обучения.

  • Single Shot Detector (выявление объектов)Для обучения модели будет использоваться архитектура Single Shot Detector (SSD). SSD используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • U-Net (классификация пикселов)Для обучения модели будет использоваться архитектура U-Net. U-Net используется для классификации пикселов.
  • Классификатор объектов (классификация объектов)Для обучения модели будет использоваться архитектура Классификатор объектов. Он используется для классификации изображений или объектов.
  • Pyramid Scene Parsing Network (классификация пикселов)Для обучения модели будет использоваться архитектура Pyramid Scene Parsing Network (PSPNET). PSPNET используется для классификации пикселов.
  • RetinaNet (выявление объектов)Для обучения модели будет использоваться архитектура RetinaNet. RetinaNet используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • MaskRCNN (выявление объектов)Для обучения модели будет использоваться архитектура MaskRCNN. MaskRCNN используется для обнаружения объектов. Этот подход используется, например, для сегментации, которая представляет собой точное выделение объектов на изображении. Этот тип модели можно использовать для обнаружения контуров зданий. Он использует формат метаданных MaskRCNN для входных обучающих данных. Значения класса для входных обучающих данных должны начинаться с 1. Этот тип модели можно обучить только с помощью графического процессора с поддержкой CUDA.
  • YOLOv3 (выявление объектов)Для обучения модели будет использоваться архитектура YOLOv3. YOLOv3 используется для обнаружения объектов.
  • DeepLabV3 (классификация пикселов)Для обучения модели будет использоваться архитектура DeepLabV3. DeepLab используется для классификации пикселов.
  • FasterRCNN (классификация объектов)Для обучения модели будет использоваться архитектура FasterRCNN. FasterRCNN используется для обнаружения объектов.
  • BDCN Edge Detector (Классификация пикселов)Для обучения модели будет использоваться архитектура двунаправленной каскадной сети (BDCN). BDCN Edge Detector используется для классификации пикселов. Этот подход полезен для улучшения возможностей обнаружения ребер объектов в разных масштабах.
  • HED Edge Detector (Классификация пикселов)Для обучения модели будет использоваться архитектура Holistically-Nested Edge Detection (HED). HED Edge Detector используется для классификации пикселов. Этот подход полезен для обнаружения ребер и границ объектов.
  • Multi Task Road Extractor (Классификация пикселов)Для обучения модели будет использоваться архитектура Multi Task Road Extractor. Multi Task Road Extractor используется для классификации пикселов. Этот подход полезен для извлечения дорожной сети из космических снимков.
  • ConnectNet (Классификация пикселов)Для обучения модели будет использоваться архитектура ConnectNet. ConnectNet используется для классификации пикселов. Этот подход полезен для извлечения дорожной сети из космических снимков.
  • Pix2Pix (Преобразование изображения)Для обучения модели будет использоваться архитектура Pix2Pix. Pix2Pix используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • CycleGAN (Преобразование изображения)Для обучения модели будет использоваться архитектура CycleGAN. CycleGAN используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Этот подход уникален тем, что обучаемые изображения не должны перекрываться. Входные обучающие данные для этого типа модели используют формат метаданных CycleGAN.
  • Super-resolution (Преобразование изображения)Для обучения модели будет использоваться архитектура Super-resolution. Super-resolution используется для преобразования изображения в изображение. Этот подход создает объект модели, который увеличивает разрешение и улучшает качество изображений. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • Change detector (Классификация пикселов)Для обучения модели будет использоваться архитектура Change detector. Change detector используется для классификации пикселов. Этот подход создает объект модели, который использует два пространственно-временных изображения для создания классифицированного растра изменений. Входные обучающие данные для этого типа модели используют формат метаданных Классифицированные листы.
  • Image captioner (Преобразование изображения)Для обучения модели будет использоваться архитектура Image captioner. Image captioner используется для перевода изображения в текст. Этот подход создает модель, которая создает текстовые подписи к изображению.
  • Siam Mask (Отслеживание объектов)Для обучения модели будет использоваться архитектура Siam Mask. Siam Mask используется для обнаружения объектов в видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных MaskRCNN.
  • MMDetection (Выявление объекта)Для обучения модели будет использоваться архитектура MMDetection. MMDetection используется для обнаружения объектов. Поддерживаемые форматы метаданных: прямоугольники класса визуальных объектов Pascal и прямоугольники KITTI.
  • MMSegmentation (Классификация пикселов)Для обучения модели будет использоваться архитектура MMSegmentation. MMDetection используется для классификации пикселов. Поддерживаемый формат метаданных — Классифицированные листы.
  • Deep Sort (Отслеживание объектов)Для обучения модели будет использоваться архитектура Deep Sort. Deep Sort используется для обнаружения объектов в видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных Imagenet. Siam Mask полезна при отслеживании одного объекта, а Deep Sort полезна при обучении модели для отслеживания нескольких объектов.
  • Pix2PixHD (Преобразование изображения)Для обучения модели будет использоваться архитектура Pix2PixHD. Pix2PixHD используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • MaX-DeepLab (Паноптическая сегментация).Для обучения модели будет использоваться архитектура MaX-DeepLab. MaX-DeepLab используется для паноптической сегментации. Этот подход создает объект модели, который создает изображения и объекты. Входные обучающие данные для этого типа модели используют формат метаданных с паноптической сегментацией.
  • DETReg (выявление объектов)Для обучения модели будет использоваться архитектура DETReg. DETReg используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют Pascal Visual Object Classes. Этот тип модели требует значительных ресурсов GPU; рекомендуется выделить GPU с не менее 16 ГБ памяти для корректного запуска.
  • PSETAE (Классификация пикселов)Для обучения модели классификации временных рядов будет использоваться архитектура Encoders and Temporal Self-Attention (PSETAE). Предварительные данные, используемые для этого метода, являются многомерными данными. PSETAE используется для классификации пикселов.
String
Размер пакета
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться для обучения за один раз.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Long
Аргументы модели
(Дополнительный)

Аргументы функции определены в классе функции растра Python. Там перечисляются дополнительные параметры глубокого обучения и аргументы для экспериментов и улучшения, например, порог достоверности для настройки чувствительности. Названия аргументов заполняются при чтении модуля Python.

Когда вы выбираете Single Shot Detector (Обнаружение объектов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • grids — количество сеток, на которые будет разбито изображение для обработки. Установка для этого аргумента значения 4 означает, что изображение будет разделено на 4 x 4 или 16 ячеек сетки. Если значение не задано, оптимальное значение сетки будет рассчитано на основе входных изображений.
  • zooms — количество уровней масштабирования, на которое каждая ячейка сетки будет увеличена или уменьшена. Установка для этого аргумента значения 1 означает, что все ячейки сетки останутся в том же размере или уровне масштабирования. Уровень масштабирования 2 означает, что все ячейки сетки станут в два раза больше (увеличены на 100 процентов). Предоставление списка уровней масштабирования означает, что все ячейки сетки будут масштабироваться с использованием всех значений в списке. По умолчанию 1.0.
  • ratios — список отношений сторон, используемых для рамок привязки. При обнаружении объекта рамка привязки представляет идеальное местоположение, форму и размер прогнозируемого объекта. Установка для этого аргумента значения [1.0,1.0], [1.0, 0.5] означает, что рамка привязки представляет собой квадрат (1:1) или прямоугольник, в котором горизонтальная сторона вдвое меньше вертикальной стороны (1:0.5). По умолчанию [1.0, 1.0].
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики: valid_loss и medium_precision. По умолчанию valid_loss.

Когда вы выбираете модель классификации пикселов, такую как Pyramid Scene Parsing Network (классификация пикселов), U-Net (классификация пикселов) или DeepLabv3 (классификация пикселов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • use_net — указывает, будет ли использоваться декодер U-Net для восстановления данных после завершения формирования пула пирамидных слоев. Значением по умолчанию является True. Этот аргумент специфичен для модели сети Pyramid Scene Parsing Network.
  • pyramid_sizes — количество и размер слоев свертки, которые должны применяться к различным субрегионам. По умолчанию [1,2,3,6]. Этот аргумент специфичен для модели сети Pyramid Scene Parsing Network.
  • mixup — определяет, будут ли использоваться приращение микширования и потеря микширования. По умолчанию False.
  • class_balancing — указывает, будет ли обратная кросс-энтропийная потеря сбалансирована с частотой пикселов на класс. По умолчанию False.
  • focal_loss — указывает, будут ли использоваться фокальные потери. По умолчанию False.
  • ignore_classes — содержит список значений класса, при которых модель не понесет потерь.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики: valid_loss и accuracy. По умолчанию valid_loss.

Когда вы выбираете RetinaNet (Обнаружение объектов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • scales — количество уровней масштабирования, на которые каждая ячейка будет увеличена или уменьшена. По умолчанию [1, 0.8, 0.63].
  • ratios — соотношение сторон рамки привязки. По умолчанию 0.5,1,2.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики: valid_loss и medium_precision. По умолчанию valid_loss.

Когда вы выбираете Multi Task Road Extractor (Классификация пикселов) или ConnectNet (Классификация пикселов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • gaussian_thresh — устанавливает порог Гаусса, который задает требуемую ширину дороги. Допустимый диапазон от 0.0 до 1.0. По умолчанию 0.76.
  • orient_bin_size — задает размер ячейки для углов ориентации. Значение по умолчанию равно 20.
  • orient_theta — устанавливает ширину маски ориентации. Значение по умолчанию - 8.
  • mtl_model — задает тип архитектуры, который будет использоваться для создания модели. Допустимые варианты: linknet или hourglass для нейронных архитектур, основанных на linknet или hourglass, соответственно. По умолчанию hourglass.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики: valid_loss, accuracy, miou и dice. По умолчанию valid_loss.

Когда вы выбираете Image captioner (Преобразование изображения) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • decode_params — словарь, который определяет, как будет работать Image captioner. Значение по умолчанию равно {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
  • chip_size — устанавливает размер изображения для обучения модели. Изображения обрезаются до указанного размера кусочка. Если размер изображения меньше размера кусочка, используется размер изображения. Размер по умолчанию 224 пиксела.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики: valid_loss, accuracy, corpus_bleu и multi_label_fbeta. По умолчанию valid_loss.
Аргумент decode_params состоит из следующих шести параметров.
  • embed_size — задает встраиваемый размер. По умолчанию в нейронной сети 100 слоев.
  • hidden_size — задает размер скрытого слоя. По умолчанию в нейронной сети 100 слоев.
  • attention_size — задает размер промежуточного слоя внимания. По умолчанию в нейронной сети 100 слоев.
  • teacher_forcing — задает вероятность использования стратегии teacher forcing. Teacher forcing — это стратегия обучения рекуррентных нейронных сетей. Она использует выходные данные модели из предыдущего временного шага в качестве входных данных вместо предыдущих выходных данных во время обратной передачи ошибки обучения. Допустимый диапазон от 0.0 до 1.0. Значение по умолчанию равно 1.
  • dropout — задает вероятность отсева. Допустимый диапазон от 0.0 до 1.0. Значение по умолчанию равно 0,1.
  • pretrained_emb — устанавливает отметку предварительно обученного встраивания. Если True, будет использоваться быстрое встраивание текста. Если False, предварительно обученное встраивание текста не будет использоваться. По умолчанию – False.

Когда вы выбираете Change detector (Классификация пикселов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующим аргументом:

  • attention_type — определяет тип модуля. Выбор модуля PAM (Pyramid Attention Module) или BAM (Basic Attention Module). По умолчанию PAM.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss, precision, recall и f1. По умолчанию valid_loss.

Когда вы выбираете MMDetection (Обнаружение объектов) в качестве значения параметра Тип модели, параметр Аргументы модели будет заполнен следующими аргументами:

  • model — опорная модель, используемая для обучения модели. Вы можете использовать atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl или vfnet как опорная модель. По умолчанию cascade_rcnn.
  • model_weight — определяет, использовать ли веса предварительно обученной модели. Значением по умолчанию является false. Значение также может быть путем к файлу конфигурации, содержащему веса модели, из репозитория MMDetection.

При выборе MMSegmentation (классификация пикселов) в качестве значения параметра Тип модели параметр Аргументы модели будет заполнен следующими аргументами:

  • model — опорная модель, используемая для обучения модели. Вы можете использовать ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet или upernet как опорная модель. По умолчанию deeplabv3.
  • model_weight — определяет, использовать ли веса предварительно обученной модели. Значением по умолчанию является false. Значение также может быть путем к файлу конфигурации, содержащему веса модели, из репозитория MMSegmentation.

Все типы моделей поддерживают аргумент chip_size, который представляет собой размер кусочка изображения обучающих выборок. Размер кусочка изображения извлекается из файла .emd из папки, указанной в параметре Входные обучающие данные.

Value Table
Скорость обучения
(Дополнительный)

Скорость, с которой существующая информация будет перезаписываться вновь полученной информацией в процессе обучения. Если значение не указано, оптимальная скорость обучения будет получена из кривой обучения в процессе.

Double
Опорная модель
(Дополнительный)

Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели. Этот метод известен как Трансферное обучение.

Кроме того, поддерживаемые сверхточные нейронные сети из моделей изображений PyTorch (timm) можно указать с помощью timm: в качестве префикса, например, timm:resnet31, timm:inception_v4, timm:efficientnet_b3, и т.д.

  • DenseNet-121Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 121 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DenseNet-161Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 161 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DenseNet-169Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 169 слоев. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DenseNet-201Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 201 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • MobileNet версия 2Эта предварительно настроенная модель будет обучаться на базе данных Imagenet и имеет 54 слоя, ориентированных на вычисления на устройствах Edge, поскольку она использует меньше памяти.
  • ResNet-18Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более миллиона изображений и имеющем 18 слоев в глубину.
  • ResNet-34Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 34 слоя в глубину. Это значение по умолчанию
  • ResNet-50Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 50 слоев в глубину.
  • ResNet-101Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 101 слой в глубину.
  • ResNet-152Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 152 слоя в глубину.
  • VGG-11Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 11 слоев в глубину.
  • VGG-11 с пакетной нормализациейЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 11 слоев.
  • VGG-13Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 13 слоев в глубину.
  • VGG-13 с пакетной нормализациейЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 13 слоев.
  • VGG-16Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 16 слоев в глубину.
  • VGG-16 с пакетной нормализациейЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 16 слоев.
  • VGG-19Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 19 слоев в глубину.
  • VGG-19 с пакетной нормализациейЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 19 слоев.
  • DarkNet-53Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет 53 слоя в глубину.
  • Reid_v1Предварительно настроенная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который используется для отслеживания объектов.
  • Reid_v2Предварительно настроенная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который используется для отслеживания объектов.
String
Предварительно обученная модель
(Дополнительный)

Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk).

Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели.

File
Проверка %
(Дополнительный)

Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10.

Double
Завершить, когда модель перестанет улучшаться
(Дополнительный)

Указывает, будет ли реализована ранняя остановка.

  • Отмечено — будет реализована ранняя остановка, и обучение модели остановится, когда модель перестанет улучшаться, независимо от указанного значения параметра Максимальное число периодов времени. Это значение по умолчанию
  • Не отмечено — ранняя остановка не будет реализована, и обучение модели будет продолжаться до тех пор, пока не будет достигнуто значение параметра Максимальное число периодов времени.
Boolean
Закрепить модель
(Дополнительный)

Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.

  • Отмечено — опорные слои будут закреплены, а предопределенные веса и смещения не будут изменены в параметре Опорная модель. Это значение по умолчанию
  • Не отмечено — опорные слои не будут закреплены, а веса и смещения параметра Опорная модель могут быть изменены для соответствия обучающим выборкам. Это требует больше времени для обработки, но обычно дает лучшие результаты.

Boolean

Производные выходные данные

ПодписьОписаниеТип данных
Выходная модель

Выходной файл обученной модели.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze})
ИмяОписаниеТип данных
in_folder
[in_folder,...]

Папки, содержащие кусочки изображений, метки и статистику, необходимые для обучения модели. Это результат работы инструмента Экспорт обучающих данных для глубокого обучения.

При соблюдении всех следующих условий поддерживаются несколько входных папок:

  • Формат метаданных должен быть классифицированными листами, листами с метками, листами с несколькими метками, классами визуальных объектов Pascal или масками RCNN.
  • Все обучающие данные должны иметь одинаковый формат метаданных.
  • Все обучающие данные должны иметь одинаковое количество каналов.
  • Все обучающие данные должны иметь одинаковый размер листа.

Folder
out_folder

Расположение выходной папки, в которой будет храниться обученная модель.

Folder
max_epochs
(Дополнительный)

Максимальное количество периодов времени, для которых будет обучаться модель. Максимальный период времени, равный единице, означает, что набор данных будет передаваться вперед и назад через нейронную сеть один раз. Значение по умолчанию равно 20.

Long
model_type
(Дополнительный)

Указывает тип модели, который будет использоваться для обучения модели глубокого обучения.

  • SSDДля обучения модели будет использоваться архитектура Single Shot Detector (SSD). SSD используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • UNETДля обучения модели будет использоваться архитектура U-Net. U-Net используется для классификации пикселов.
  • FEATURE_CLASSIFIERДля обучения модели будет использоваться архитектура Классификатор объектов. Он используется для классификации изображений или объектов.
  • PSPNETДля обучения модели будет использоваться архитектура Pyramid Scene Parsing Network (PSPNET). PSPNET используется для классификации пикселов.
  • RETINANETДля обучения модели будет использоваться архитектура RetinaNet. RetinaNet используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • MASKRCNNДля обучения модели будет использоваться архитектура MaskRCNN. MaskRCNN используется для обнаружения объектов. Этот подход используется, например, для сегментации, которая представляет собой точное выделение объектов на изображении. Этот тип модели можно использовать для обнаружения контуров зданий. Он использует формат метаданных MaskRCNN для входных обучающих данных. Значения класса для входных обучающих данных должны начинаться с 1. Этот тип модели можно обучить только с помощью графического процессора с поддержкой CUDA.
  • YOLOV3Для обучения модели будет использоваться архитектура YOLOv3. YOLOv3 используется для обнаружения объектов.
  • DEEPLABДля обучения модели будет использоваться архитектура DeepLabV3. DeepLab используется для классификации пикселов.
  • FASTERRCNNДля обучения модели будет использоваться архитектура FasterRCNN. FasterRCNN используется для обнаружения объектов.
  • BDCN_EDGEDETECTORДля обучения модели будет использоваться архитектура двунаправленной каскадной сети (BDCN). BDCN Edge Detector используется для классификации пикселов. Этот подход полезен для улучшения возможностей обнаружения ребер объектов в разных масштабах.
  • HED_EDGEDETECTORДля обучения модели будет использоваться архитектура Holistically-Nested Edge Detection (HED). HED Edge Detector используется для классификации пикселов. Этот подход полезен для обнаружения ребер и границ объектов.
  • MULTITASK_ROADEXTRACTORДля обучения модели будет использоваться архитектура Multi Task Road Extractor. Multi Task Road Extractor используется для классификации пикселов. Этот подход полезен для извлечения дорожной сети из космических снимков.
  • CONNECTNETДля обучения модели будет использоваться архитектура ConnectNet. ConnectNet используется для классификации пикселов. Этот подход полезен для извлечения дорожной сети из космических снимков.
  • PIX2PIXДля обучения модели будет использоваться архитектура Pix2Pix. Pix2Pix используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • CYCLEGANДля обучения модели будет использоваться архитектура CycleGAN. CycleGAN используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Этот подход уникален тем, что обучаемые изображения не должны перекрываться. Входные обучающие данные для этого типа модели используют формат метаданных CycleGAN.
  • SUPERRESOLUTIONДля обучения модели будет использоваться архитектура Super-resolution. Super-resolution используется для преобразования изображения в изображение. Этот подход создает объект модели, который увеличивает разрешение и улучшает качество изображений. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • CHANGEDETECTORДля обучения модели будет использоваться архитектура Change detector. Change detector используется для классификации пикселов. Этот подход создает объект модели, который использует два пространственно-временных изображения для создания классифицированного растра изменений. Входные обучающие данные для этого типа модели используют формат метаданных Классифицированные листы.
  • IMAGECAPTIONERДля обучения модели будет использоваться архитектура Image captioner. Image captioner используется для перевода изображения в текст. Этот подход создает модель, которая создает текстовые подписи к изображению.
  • SIAMMASKДля обучения модели будет использоваться архитектура Siam Mask. Siam Mask используется для обнаружения объектов в видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных MaskRCNN.
  • MMDETECTIONДля обучения модели будет использоваться архитектура MMDetection. MMDetection используется для обнаружения объектов. Поддерживаемые форматы метаданных: прямоугольники класса визуальных объектов Pascal и прямоугольники KITTI.
  • MMSEGMENTATIONДля обучения модели будет использоваться архитектура MMSegmentation. MMDetection используется для классификации пикселов. Поддерживаемый формат метаданных — Классифицированные листы.
  • DEEPSORTДля обучения модели будет использоваться архитектура Deep Sort. Deep Sort используется для обнаружения объектов в видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных Imagenet. Siam Mask полезна при отслеживании одного объекта, а Deep Sort полезна при обучении модели для отслеживания нескольких объектов.
  • PIX2PIXHDДля обучения модели будет использоваться архитектура Pix2PixHD. Pix2PixHD используется для преобразования изображения в изображение. Этот подход создает объект модели, который преобразует изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Экспорт листов.
  • MAXDEEPLABДля обучения модели будет использоваться архитектура MaX-DeepLab. MaX-DeepLab используется для паноптической сегментации. Этот подход создает объект модели, который создает изображения и объекты. Входные обучающие данные для этого типа модели используют формат метаданных с паноптической сегментацией.
  • DETREGДля обучения модели будет использоваться архитектура DETReg. DETReg используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют Pascal Visual Object Classes. Этот тип модели требует значительных ресурсов GPU; рекомендуется выделить GPU с не менее 16 ГБ памяти для корректного запуска.
  • PSETAEДля обучения модели классификации временных рядов будет использоваться архитектура Encoders and Temporal Self-Attention (PSETAE). Предварительные данные, используемые для этого метода, являются многомерными данными. PSETAE используется для классификации пикселов.
String
batch_size
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться для обучения за один раз.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Long
arguments
[arguments,...]
(Дополнительный)

Аргументы функции определены в классе функции растра Python. Там перечисляются дополнительные параметры глубокого обучения и аргументы для экспериментов и улучшения, например, порог достоверности для настройки чувствительности. Названия аргументов заполняются при чтении модуля Python.

Когда вы выбираете SSD в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • grids — количество сеток, на которые будет разбито изображение для обработки. Установка для этого аргумента значения 4 означает, что изображение будет разделено на 4 x 4 или 16 ячеек сетки. Если значение не задано, оптимальное значение сетки будет рассчитано на основе входных изображений.
  • zooms — количество уровней масштабирования, на которое каждая ячейка сетки будет увеличена или уменьшена. Установка для этого аргумента значения 1 означает, что все ячейки сетки останутся в том же размере или уровне масштабирования. Уровень масштабирования 2 означает, что все ячейки сетки станут в два раза больше (увеличены на 100 процентов). Предоставление списка уровней масштабирования означает, что все ячейки сетки будут масштабироваться с использованием всех значений в списке. По умолчанию 1.0.
  • ratios — список отношений сторон, используемых для рамок привязки. При обнаружении объекта рамка привязки представляет идеальное местоположение, форму и размер прогнозируемого объекта. Установка для этого аргумента значения [1.0,1.0], [1.0, 0.5] означает, что рамка привязки представляет собой квадрат (1:1) или прямоугольник, в котором горизонтальная сторона вдвое меньше вертикальной стороны (1:0.5). По умолчанию [1.0, 1.0].
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss и average_precision. По умолчанию – valid_loss.

При выборе модели классификации пикселов, например PSPNET, UNET или DEEPLAB в качестве значения параметра model_type параметр arguments будет заполнен следующими аргументами:

  • USE_UNET — Декодер U-Net будет использоваться для восстановления данных после завершения формирования пула пирамидных слоев. По умолчанию – True. Этот аргумент специфичен для модели PSPNET.
  • PYRAMID_SIZES — количество и размер слоев свертки, которые должны применяться к различным субрегионам. По умолчанию [1,2,3,6]. Этот аргумент специфичен для модели PSPNET.
  • MIXUP — определяет, будут ли использоваться приращение микширования и потеря микширования. По умолчанию – False.
  • CLASS_BALANCING — указывает, будет ли обратная кросс-энтропийная потеря сбалансирована с частотой пикселов на класс. По умолчанию – False.
  • FOCAL_LOSS — указывает, будут ли использоваться фокальные потери. По умолчанию – False.
  • IGNORE_CLASSES — содержит список значений класса, при которых модель не понесет потерь.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss и accuracy. По умолчанию – valid_loss.

Когда вы выбираете RETINANET в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • SCALES — количество уровней масштабирования, на которые каждая ячейка будет увеличена или уменьшена. По умолчанию [1, 0.8, 0.63].
  • RATIOS — соотношение сторон рамки привязки. По умолчанию [0.5,1,2].
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss и average_precision. По умолчанию – valid_loss.

Когда вы выбираете MULTITASK_ROADEXTRACTOR или CONNECTNET в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • gaussian_thresh — устанавливает порог Гаусса, который задает требуемую ширину дороги. Допустимый диапазон от 0.0 до 1.0. По умолчанию 0.76.
  • orient_bin_size — задает размер ячейки для углов ориентации. Значение по умолчанию равно 20.
  • orient_theta — устанавливает ширину маски ориентации. Значение по умолчанию - 8.
  • mtl_model — задает тип архитектуры, который будет использоваться для создания модели. Допустимые варианты: linknet или hourglass для нейронных архитектур, основанных на linknet или hourglass, соответственно. По умолчанию – hourglass.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss, accuracy, miou и dice. По умолчанию – valid_loss.

Когда вы выбираете IMAGECAPTIONER в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • decode_params — словарь, который определяет, как будет работать Image captioner. Значение по умолчанию равно {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
  • chip_size — устанавливает размер изображения для обучения модели. Изображения обрезаются до указанного размера кусочка. Если размер изображения меньше размера кусочка, используется размер изображения. Размер по умолчанию 224 пиксела.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss, accuracy, corpus_bleu и multi_label_fbeta. По умолчанию – valid_loss.
Аргумент decode_params состоит из следующих шести параметров:
  • embed_size — задает встраиваемый размер. По умолчанию в нейронной сети 100 слоев.
  • hidden_size — задает размер скрытого слоя. По умолчанию в нейронной сети 100 слоев.
  • attention_size — задает размер промежуточного слоя внимания. По умолчанию в нейронной сети 100 слоев.
  • teacher_forcing — задает вероятность использования стратегии teacher forcing. Teacher forcing — это стратегия обучения рекуррентных нейронных сетей. Она использует выходные данные модели из предыдущего временного шага в качестве входных данных вместо предыдущих выходных данных во время обратной передачи ошибки обучения. Допустимый диапазон от 0.0 до 1.0. Значение по умолчанию равно 1.
  • dropout — задает вероятность отсева. Допустимый диапазон от 0.0 до 1.0. Значение по умолчанию равно 0,1.
  • pretrained_emb — устанавливает отметку предварительно обученного встраивания. Если True, будет использоваться быстрое встраивание текста. Если False, предварительно обученное встраивание текста не будет использоваться. По умолчанию – False.

Когда вы выбираете CHANGEDETECTOR в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • attention_type — определяет тип модуля. Выбор модуля PAM (Pyramid Attention Module) или BAM (Basic Attention Module). По умолчанию – PAM.
  • monitor — указывает, какую метрику следует отслеживать во время проверки и ранней остановки. Доступные метрики valid_loss, precision, recall и f1. По умолчанию – valid_loss.

Когда вы выбираете MMDETECTION в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • model — опорная модель, используемая для обучения модели. Доступны следующие варианты atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl и vfnet. По умолчанию – cascade_rcnn.
  • model_weight — определяет, использовать ли веса предварительно обученной модели. По умолчанию – false. Значение также может быть путем к файлу конфигурации, содержащему веса модели, из репозитория MMDetection.

Когда вы выбираете MMSegmentation в качестве значения параметра model_type, параметр arguments будет заполнен следующими аргументами:

  • model — опорная модель, используемая для обучения модели. Доступны следующие варианты: ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet, dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet и upernet. По умолчанию – deeplabv3.
  • model_weight — определяет, использовать ли веса предварительно обученной модели. По умолчанию – false. Значение также может быть путем к файлу конфигурации, содержащему веса модели, из репозитория MMSegmentation.

Все типы моделей поддерживают аргумент chip_size, который представляет собой размер кусочка изображения обучающих выборок. Размер кусочка изображения извлекается из файла .emd из папки, указанной в параметре in_folder.

Value Table
learning_rate
(Дополнительный)

Скорость, с которой существующая информация будет перезаписываться вновь полученной информацией в процессе обучения. Если значение не указано, оптимальная скорость обучения будет получена из кривой обучения в процессе.

Double
backbone_model
(Дополнительный)

Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели. Этот метод известен как Трансферное обучение.

  • DENSENET121Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 121 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DENSENET161Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 161 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DENSENET169Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 169 слоев. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • DENSENET201Предварительно настроенная модель будет плотной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 201 слой. В отличие от RESNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои с помощью конкатенации.
  • MOBILENET_V2Эта предварительно настроенная модель будет обучаться на базе данных Imagenet и имеет 54 слоя, ориентированных на вычисления на устройствах Edge, поскольку она использует меньше памяти.
  • RESNET18Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более миллиона изображений и имеющем 18 слоев в глубину.
  • RESNET34Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 34 слоя в глубину. Это значение по умолчанию
  • RESNET50Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 50 слоев в глубину.
  • RESNET101Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 101 слой в глубину.
  • RESNET152Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, содержащем более 1 миллиона изображений и имеющем 152 слоя в глубину.
  • VGG11Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 11 слоев в глубину.
  • VGG11_BNЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 11 слоев.
  • VGG13Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 13 слоев в глубину.
  • VGG13_BNЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 13 слоев.
  • VGG16Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 16 слоев в глубину.
  • VGG16_BNЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 16 слоев.
  • VGG19Предварительно сконфигурированная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет 19 слоев в глубину.
  • VGG19_BNЭта предварительно сконфигурированная модель будет основана на сети VGG, но с пакетной нормализацией, что означает нормализацию каждого слоя в сети. Она обучалась на наборе данных Imagenet и имеет 19 слоев.
  • DARKNET53Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет 53 слоя в глубину.
  • REID_V1Предварительно настроенная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который используется для отслеживания объектов.
  • REID_V2Предварительно настроенная модель будет сверточной нейронной сетью, обученной на наборе данных Imagenet, который используется для отслеживания объектов.

Кроме того, поддерживаемые сверхточные нейронные сети из моделей изображений PyTorch (timm) можно указать с помощью timm: в качестве префикса, например, timm:resnet31, timm:inception_v4, timm:efficientnet_b3, и т.д.

String
pretrained_model
(Дополнительный)

Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk).

Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели.

File
validation_percentage
(Дополнительный)

Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10.

Double
stop_training
(Дополнительный)

Указывает, будет ли реализована ранняя остановка.

  • STOP_TRAININGБудет реализована ранняя остановка, и обучение модели остановится, когда модель перестанет улучшаться, независимо от указанного значения параметра max_epochs. Это значение по умолчанию
  • CONTINUE_TRAININGРанняя остановка не будет реализована, и обучение модели будет продолжаться до тех пор, пока не будет достигнуто значение параметра max_epochs.
Boolean
freeze
(Дополнительный)

Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.

  • FREEZE_MODELОпорные слои будут закреплены, а предопределенные веса и смещения не будут изменены в параметре backbone_model. Это значение по умолчанию
  • UNFREEZE_MODELОпорные слои не будут закреплены, а веса и смещения параметра backbone_model могут быть изменены для соответствия обучающим выборкам. Это требует больше времени для обработки, но обычно дает лучшие результаты.
Boolean

Производные выходные данные

ИмяОписаниеТип данных
out_model_file

Выходной файл обученной модели.

File

Пример кода

TrainDeepLearningModel, пример 1 (окно Python)

В этом примере обучается модель классификации деревьев с использованием подхода U-Net.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
# Execute 
TrainDeepLearningModel(r"C:\DeepLearning\TrainingData\Roads_FC", 
     r"C:\DeepLearning\Models\Fire", 40, "UNET", 16, "# #", None, 
     "RESNET34", None, 10, "STOP_TRAINING", "FREEZE_MODEL")
TrainDeepLearningModel, пример 2 (автономный скрипт)

В этом примере обучается модель обнаружения объектов с использованием подхода SSD.

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

Информация о лицензиях

  • Basic: Обязательно Image Analyst
  • Standard: Обязательно Image Analyst
  • Advanced: Обязательно Image Analyst

Связанные разделы