Тренировать модель глубокого обучения (Image Analyst)

Доступно с лицензией Image Analyst.

Краткая информация

Тренирует модель глубокого обучения с использованием результатов работы инструмента Экспорт обучающих данных для глубокого обучения.

Использование

  • Этот инструмент обучает модель глубокого обучения с использованием сред глубокого обучения.

  • Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.

  • Если вы будете обучать модели в автономной среде, дополнительные сведения см. в разделе Дополнительная установка для автономной среды.

  • Этот инструмент также можно использовать для точной настройки существующей обученной модели. Например, существующую модель, обученную для легковых автомобилей, можно настроить для обучения модели, идентифицирующей грузовые автомобили.

  • Чтобы запустить этот инструмент с использованием графического процессора, установите для параметра среды Тип процессора значение GPU. Если имеется более одного GPU, можно вместо этого задать GPU ID.

  • По умолчанию инструмент использует все доступные графические процессоры, если для параметра Тип модели задана одна из следующих опций:

    • ConnectNet
    • Классификатор объектов
    • MaskRCNN
    • Multi Task Road Extractor
    • Single Shot Detector
    • U-Net

    Чтобы использовать определенный графический процессор, используйте параметр среды GPU ID.

  • Входные обучающие данные для этого инструмента должны включать папки изображений и меток, созданные с помощью инструмента Экспорт обучающих данных для глубокого обучения.

    Исключением являются случаи, когда в обучающих данных используются форматы метаданных Pascal Visual Object Classes или прямоугольников KITTI. Для этих двух форматов обучающие данные могут поступать из других источников, но кусочки изображений должны находиться в папке image, а соответствующие метки должны находиться в папке labels.

  • Задайте преобразования fastai для увеличения обучающих наборов данных и наборов данных проверки с помощью файла transforms.json, который находится в той же папке, что и обучающие данные. Ниже приведен пример файла transforms.json:

    Пользовательские параметры увеличения данных

    
    {
        "Training": {
            "rotate": {
                "degrees": 30,
                "p": 0.5
            },
            "crop": {
                "size": 224,
                "p": 1,
                "row_pct": "0, 1",
                "col_pct": "0, 1"
            },
            "brightness": {
                "change": "0.4, 0.6"
            },
            "contrast": {
                "scale": "1.0, 1.5"
            },
            "rand_zoom": {
                "scale": "1, 1.2"
            }
        },
        "Validation": {
            "crop": {
                "size": 224,
                "p": 1.0,
                "row_pct": 0.5,
                "col_pct": 0.5
            }
        }
    }

  • Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.

  • Дополнительную информацию о глубоком обучении см. в разделе Глубокое обучение с помощью дополнительного модуля ArcGIS Image Analyst.

Параметры

ПодписьОписаниеТип данных
Входные обучающие данные

Папки, содержащие кусочки изображений, метки и статистику, необходимые для обучения модели. Это результат работы инструмента Экспорт обучающих данных для глубокого обучения.

Несколько входных папок поддерживаются при выполнении следующих условий:

  • Типом формата метаданных должны быть классифицированные листы, отмеченные листы, листы с несколькими метками, классы визуальных объектов Pascal или маски RCNN.
  • Все обучающие данные должны иметь один и тот же формат метаданных.
  • Все обучающие данные должны иметь одинаковое количество каналов.

Folder
Выходная папка

Местоположение выходной папки, в которой будет храниться обученная модель.

Folder
Максимальное число периодов времени
(Дополнительный)

Максимальное число эпох, для которых будет обучаться модель. Максимальная эпоха, равная 1, означает, что набор данных будет передан через нейронную сеть вперед и назад один раз. Значение по умолчанию равно 20.

Long
Тип модели
(Дополнительный)

Задает тип модели, который будет применен для обучения модели глубокого обучения.

  • BDCN Edge Detector (Классификация пикселов)Для обучения модели будет использоваться архитектура двунаправленной каскадной сети (Bi-Directional Cascade Network (BDCN)). BDCN Edge Detector используется для классификации пикселов. Этот подход полезен для улучшения обнаружения границ объектов в разных масштабах.
  • Change Detector (Классификация пикселов)Для обучения модели будет использоваться архитектура Change detector. Change detector используется для классификации пикселов. Этот подход создает объект модели, который использует два пространственно-временных изображения для создания классифицированного растра изменений. Входные обучающие данные для этого типа модели используют формат метаданных Classified Tiles.
  • ClimaX (Классификация пикселов)Для обучения модели будет использоваться архитектура ClimaX. Эта модель в основном используется для анализа погоды и климата. ClimaX используется для классификации пикселов. Предварительные данные, используемые для этого метода, представляют собой многомерные данные.
  • ConnectNet (Классификация пикселов)Для обучения модели будет использоваться архитектура ConnectNet. ConnectNet используется для классификации пикселов. Этот подход применяется для извлечения дорожной сети из спутниковых снимков.
  • CycleGAN (Преобразование изображения)Для обучения модели будет использоваться архитектура CycleGAN. CycleGAN используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Этот подход уникален тем, что для обучения, изображения не должны перекрываться. Входные обучающие данные для этого типа модели используют формат метаданных CycleGAN.
  • DeepLabV3 (Классификация пикселов)Для обучения модели будет использоваться архитектура DeepLabV3. DeepLab используется для классификации пикселов.
  • Deep Sort (Отслеживание объектов)Для обучения модели будет использоваться архитектура Deep Sort. Deep Sort используется для обнаружения объектов на видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных Imagenet. While Siam Mask полезен при отслеживании объекта, а Deep Sort полезен при обучении модели отслеживанию нескольких объектов.
  • DETReg (Обнаружение объектов)Для обучения модели будет использоваться архитектура DETReg. DETReg используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют Pascal Visual Object Classes. Этот тип модели интенсивно использует GPU; для правильной работы требуется выделенный графический процессор с объемом памяти не менее 16 ГБ.
  • FasterRCNN (Обнаружение объектов)Для обучения модели будет использоваться архитектура FasterRCNN. FasterRCNN используется для обнаружения объектов.
  • Feature classifier (Классификация объектов)Для обучения модели будет использоваться архитектура классификатора объектов. Классификатор объектов используется для классификации объектов или изображений.
  • HED Edge Detector (Классификация пикселов)Для обучения модели будет использоваться архитектура целостно-вложенного обнаружения границ (Holistically-Nested Edge Detection (HED)). HED Edge Detector используется для классификации пикселов. Этот подход полезен для обнаружения краев и границ объектов.
  • Image Captioner (Преобразование изображения)Для обучения модели будет использоваться архитектура Image captioner. Image captioner используется для перевода изображения в текст. Этот подход создает модель, которая генерирует текстовые подписи к изображению.
  • MaskRCNN (Обнаружение объектов)Для обучения модели будет использоваться архитектура MaskRCNN. MaskRCNN используется для обнаружения объектов. Этот подход используется для сегментации экземпляров, которая представляет собой точное выделение объектов на изображении. Эту модель можно использовать для обнаружения контуров зданий. Она работает с форматом метаданных MaskRCNN в качестве входных данных обучения. Значения классов для входных обучающих данных должны начинаться с единицы. Модели этого типа можно обучать только с помощью GPU с поддержкой CUDA.
  • MaX-DeepLab (Общая сегментация)Для обучения модели будет использоваться архитектура MaX-DeepLab. MaX-DeepLab используется для общей сегментации. Этот подход создает объект модели, который генерирует изображения и объекты. Входные обучающие данные для этого типа модели используют формат метаданных Panoptic segmentation.
  • MMDetection (Обнаружение объектов)Для обучения модели будет использоваться архитектура MMDetection. MMDetection используется для обнаружения объектов. Поддерживаемые форматы метаданных: прямоугольники Pascal Visual Object Class и прямоугольники KITTI.
  • MMSegmentation (Классификация пикселов)Для обучения модели будет использоваться архитектура MMSegmentation. MMSegmentation используется для классификации пикселов. Поддерживаемый формат метаданных Classified Tiles.
  • Multi Task Road Extractor (Классификация пикселов)Для обучения модели будет использоваться архитектура Multi Task Road Extractor. Multi Task Road Extractor используется для классификации пикселов. Этот подход применяется для извлечения дорожной сети из спутниковых снимков.
  • Pix2Pix (Преобразование изображения)Для обучения модели будет использоваться архитектура Pix2Pix. Pix2Pix используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • Pix2PixHD (Преобразование изображения)Для обучения модели будет использоваться архитектура Pix2PixHD. Pix2PixHD используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • PSETAE (Классификация пикселов)Для обучения модели классификации временных рядов будет использоваться Архитектура Pixel-Set Encoders и Temporal Self-Attention (PSETAE). PSETAE используется для классификации пикселов. Предварительные данные, используемые для этого метода, представляют собой многомерные данные.
  • Pyramid Scene Parsing Network (Классификация пикселов)Для обучения модели будет использоваться архитектура Pyramid Scene Parsing Network (PSPNET). PSPNET используется для классификации пикселов.
  • RetinaNet (Обнаружение объектов)Для обучения модели будет использоваться архитектура RetinaNet. RetinaNet используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • RTDetrV2 (Обнаружение объектов)Для обучения модели будет использоваться усовершенствованная архитектура Real-Time DEtection TRansformer (RTDetrV2). RTDetrV2 создан на основе предыдущего детектора реального времени RT-DETR. RTDetrV2 используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes и прямоугольников KITTI.
  • SAMLoRA (Классификация пикселов)Для обучения модели будет использоваться модель Segment Anything Model (SAME) с Адаптацией низкого ранга (LoRa). Этот тип модели использует модель SAM в качестве базовой модели и будет точно настраиваться под конкретную задачу с относительно низкими вычислительными требованиями и меньшим набором данных.
  • Siam Mask (Отслеживание объектов)Для обучения модели будет использоваться архитектура Siam Mask. Siam Mask используется для обнаружения объектов на видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных MaskRCNN.
  • Single Shot Detector (Обнаружение объектов)Для обучения модели будет использоваться архитектура Single Shot Detector (SSD). Для обнаружения объектов используется SSD. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • Super-resolution (Преобразование изображения)Для обучения модели будет использоваться архитектура Super-resolution. Super-resolution используется для преобразования изображений в изображения. Этот подход создает объект модели, который увеличивает разрешение и улучшает качество изображений. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • U-Net (Классификация пикселов)Для обучения модели будет использоваться архитектура U-Net. Для классификации пикселов используется U-Net.
  • YOLOv3 (Обнаружение объектов)Для обучения модели будет использоваться архитектура YOLOv3. YOLOv3 используется для обнаружения объектов.
String
Размер пакета
(Дополнительный)

Число обучающих выборок, которые будут обрабатываться для обучения по одной за раз.

Увеличение размера пакета может повысить производительность инструмента, но по мере его увеличения используется все больше памяти.

Если для пакета заданного размера недостаточно памяти графического процессора, попробуйте установить и использовать оптимальный размер пакета. При появлении ошибки переполнения памяти задайте меньший размер пакета.

Long
Аргументы модели
(Дополнительный)

Информация из параметра Тип модели будет использоваться для заполнения этого параметра. Эти аргументы меняются в зависимости от архитектуры модели. Поддерживаемые аргументы модели для моделей, обученных в ArcGIS, описаны ниже. Предварительно обученные модели ArcGIS и пользовательские модели глубокого обучения могут иметь дополнительные аргументы, поддерживаемые инструментом.

Дополнительные сведения о том, какие аргументы доступны для каждого типа модели, см. в разделе Аргументы глубокого обучения.

Value Table
Скорость обучения
(Дополнительный)

Скорость, с которой существующая информация будет перезаписываться вновь полученными данными в процессе обучения. Если значение не задано, оптимальная скорость обучения будет извлечена из кривой обучения в процессе обучения.

Double
Опорная модель
(Дополнительный)

Задает предварительно настроенную нейросеть, которая будет использоваться в качестве архитектуры для обучения новой модели. Это метод называется Transfer Learning (передача модели обучения).

Кроме того, поддерживаемые нейронные сети свертки из моделей изображений PyTorch (timm) можно указать, используя timm в качестве префикса, например, timm:resnet31 , timm:inception_v4 , timm:efficientnet_b3 и т.д.

  • 1.40625 градусовЭта опорная модель была обучена на основе изображений, в которых разрешение каждой ячейки сетки охватывает область размером 1,40625 градуса на 1,40625 градуса. Она используется для прогнозирования погоды и климата. Это настройка с более высоким разрешением, позволяющая получать более точные выходные данные, но требующая большей вычислительной мощности.
  • 5.625 градусовЭта опорная модель была обучена на основе изображений, в которых разрешение каждой ячейки сетки охватывает область размером 5,625 градуса на 5,625 градуса. Она используется для прогнозирования погоды и климата. Это считается настройкой с низким разрешением, но она требует меньшей вычислительной мощности.
  • DenseNet-121Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 121 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DenseNet-161Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 161 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DenseNet-169Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 169 слоев. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DenseNet-201Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 201 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • MobileNet версия 2Предварительно настроенная модель будет обучаться на базе данных Imagenet, имеет глубину 54 слоя и предназначена для вычислений на периферийных устройствах, поскольку использует меньше памяти.
  • ResNet-18Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 18 слоев.
  • ResNet-34Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 34 слоя. Используется по умолчанию.
  • ResNet-50Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 50 слоев.
  • ResNet-101Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 101 слой.
  • ResNet-152Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 152 слоя.
  • VGG-11Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 11 слоев.
  • VGG-11 с пакетной нормализациейПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 11 слоев.
  • VGG-13Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 13 слоев.
  • VGG-13 с пакетной нормализациейПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 13 слоев.
  • VGG-16Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 16 слоев.
  • VGG-16 с пакетной нормализациейПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 16 слоев.
  • VGG-19Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 19 слоев.
  • VGG-19 с пакетной нормализациейПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 19 слоев.
  • DarkNet-53Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 53 слоя.
  • Reid_v1Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который используется для отслеживания объектов.
  • Reid_v2Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который используется для отслеживания объектов.
  • ResNeXt-50Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, и иметь глубину 50 слоев. Это однородная нейронная сеть, которая уменьшает количество гиперпараметров, необходимых для обычной ResNet.
  • Wide ResNet-50Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, и иметь глубину 50 слоев. Она имеет ту же архитектуру, что и ResNET, но с большим количеством каналов.
  • SR3Предварительно настроенная модель будет использовать модель Super Resolution via Repeated Refinition (SR3). SR3 адаптирует вероятностные модели диффузионного подавления шума к условному созданию изображений и обеспечивает сверхразрешение с помощью стохастического процесса подавления шума. Более подробно см. раздел Image Super-Resolution via Iterative Refinement на сайте arXiv.
  • SR3 U-ViTЭта опорная модель относится к конкретной реализации архитектуры на основе Vision Transformer (ViT), разработанной для диффузионной модели в задачах генерации изображений и SR3.
  • ViT-BПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с базовым размером нейронной сети. Это самый маленький размер. Более подробно см. раздел Segment Anything на сайте arXiv.
  • ViT-LПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с большим размером нейронной сети. Более подробно см. раздел Segment Anything на сайте arXiv.
  • ViT-HПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с огромным размером нейронной сети. Это самый большой размер. Более подробно см. раздел Segment Anything на сайте arXiv.
String
Предварительно обученная модель
(Дополнительный)

Предварительно обученная модель, которая будет использоваться для уточнения новой модели. На входе берется файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk).

Предварительно обученная модель с похожими классами может быть уточнена для соответствия новой модели. Предварительно обученная модель должна быть обучена с помощью модели того же типа и базовой моделью, которые будут использоваться для обучения новой модели. Тонкая настройка поддерживается только для моделей, обученных с использованием ArcGIS.

File
Проверка %
(Дополнительный)

Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10.

Double
Завершить, когда модель перестанет улучшаться
(Дополнительный)

Определяет, будут ли реализованы новые остановки.

  • Отмечено – будет реализована ранняя остановка, и обучение модели остановится, когда модель перестанет улучшаться, независимо от заданного значения параметра Максимальное число эпох. Используется по умолчанию.
  • Не отмечено – ранняя остановка не будет реализована, и обучение модели будет продолжаться до тех пор, пока не будет достигнуто значение параметра Максимальное число эпох.
Boolean
Закрепление модели
(Дополнительный)

Указывает, будут ли заморожены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально задуманы.

  • Отмечено – опорные слои будут закреплены, а предзаданные веса и смещения не будут изменены в параметре Опорная модель. Используется по умолчанию.
  • Не отмечено — опорные слои не будут закреплены, а веса и смещения параметра Опорная модель можно изменить, чтобы они соответствовали обучающим выборкам. Это требует больше времени для обработки, но обычно дает лучшие результаты.

Boolean
Увеличение данных
(Дополнительный)

Указывает тип увеличения данных, который будет использоваться.

Увеличение данных — это метод искусственного увеличения обучающего набора путем создания модифицированных копий набора данных с использованием существующих данных.

  • По умолчаниюБудут использоваться методы и значения увеличения данных по умолчанию.Методы увеличения данных по умолчанию: crop, dihedral_affine, brightness, contrast и zoom. Эти значения по умолчанию обычно хорошо подходят для спутниковых изображений.
  • НетУвеличение данных использоваться не будет.
  • ПользовательскийЗначения увеличения данных будут заданы с помощью параметра Параметры увеличения. Это позволяет осуществлять прямой контроль над преобразованиями crop, rotate, brightness, contrast и zoom.
  • ФайлПреобразования fastai для увеличения обучающих наборов данных и наборов данных проверки будут заданы с помощью файла transforms.json, который находится в той же папке, что и обучающие данные.Для получения дополнительной информации о различных преобразованиях см. vision transforms на сайте fastai.
String
Параметры увеличения
(Дополнительный)

Задает значение для каждого преобразования в параметре увеличения.

  • rotate — Изображение будет повернуто случайным образом (в градусах) по вероятности (p). Если градусы представляют диапазон (a,b), значение будет равномерно присвоено от a до b. Значение по умолчанию – 30.0; 0.5.
  • brightness — Яркость изображения будет произвольно регулироваться в зависимости от значения изменения с вероятностью (p). Изменение 0 преобразует изображение в самое темное, а изменение 1 преобразует изображение в самое светлое. Изменение 0,5 не отрегулирует яркость. Если изменение представляет диапазон (a,b), увеличение будет равномерно назначать значение от a до b. Значение по умолчанию – (0.4,0.6); 1.0.
  • contrast — Контрастность изображения будет случайным образом регулироваться в зависимости от значения масштаба с вероятностью (p). Масштаб 0 преобразует изображение в оттенки серого, а масштаб больше 1 преобразует изображение в суперконтрастное. Масштаб 1 не регулирует контрастность. Если масштаб представляет диапазон (a,b), увеличение будет равномерно назначать значение отa до b. Значение по умолчанию (0.75, 1.5); 1.0.
  • zoom — Изображение будет произвольно увеличиваться в зависимости от значения масштаба. Значение масштаба имеет вид scale(a,b); p. Значение по умолчанию — (1.0, 1.2); 1.0, где p - вероятность. Только масштаб больше 1.0 приведет к увеличению изображения. Если масштаб представляет диапазон (a,b), будет равномерно назначено значение от a до b.
  • crop — Изображение будет обрезано случайным образом. Значение обрезки имеет вид size;p;row_pct;col_pct, где p - вероятность. Положение задается (col_pct, row_pct), с помощью col_pct и row_pct, нормализованными между 0 и 1. Если col_pct или row_pct это диапазон (a,b), будет равномерно назначено значение от a до b. Значение по умолчанию chip_size;1.0; (0, 1); (0, 1), где 224 — размер фрагмента по умолчанию.

Value Table
Размер фрагмента
(Дополнительный)

Размер изображения, которое будет использоваться для обучения модели. Изображения будут обрезаны до указанного размера фрагмента.

Размер фрагмента по умолчанию будет таким же, как размер листа обучающих данных. Если значения для размера листа по X и по Y отличаются, меньшее значение будет использовано для размера фрагмента по умолчанию. Размер фрагмента должен быть меньше, чем наименьший размер листа по X или Y для всех изображений во входных папках.

Long
Изменить размер до
(Дополнительный)

Изменяет размеры фрагментов изображения. После изменения размера фрагмента блоки пикселов будут обрезаны по размеру фрагмента и использованы для обучения. Этот параметр применяется только к обнаружению объектов (PASCAL VOC), классификации объектов (помеченные листы) и данным сверхвысокого разрешения.

Значение изменения размера часто составляет половину значения размера фрагмента. Если значение изменения размера меньше значения размера фрагмента, значение изменения размера используется для создания блоков пикселей для обучения.

String
Схема инициализации весов
(Дополнительный)

Задает схему, в которой будут инициализироваться веса для слоя.

Чтобы обучить модель с помощью мультиспектральных данных, модель должна учитывать различные типы доступных каналов. Это делается путем повторной инициализации первого слоя модели.

Этот параметр применим только в том случае, если в модели используются мультиспектральные изображения.

  • ПроизвольноСлучайные веса будут инициализированы для каналов, отличных от RGB, а предварительно обученные веса будут сохранены для каналов RGB. Используется по умолчанию.
  • Красный каналВеса, соответствующие красному каналу из слоя предварительно обученной модели, будут клонированы для каналов, отличных от RGB, а предварительно обученные веса будут сохранены для каналов RGB.
  • Все произвольноСлучайные веса будут инициализированы как для каналов RGB, так и для каналов, отличных от RGB. Эта опция применима только к мультиспектральным изображениям.
String
Мониторинг метрик
(Дополнительный)

Задает метрику, которая будет отслеживаться при проверке контрольных точек и ранней остановке.

  • Потери проверкиБудут отслеживаться потери проверки. Когда потери проверки перестанут существенно изменяться, модель остановится. Используется по умолчанию.
  • Средняя точностьБудет контролироваться средневзвешенное значение точности на каждом пороге. Когда это значение перестанет существенно изменяться, модель остановится.
  • AccuracyБудет отслеживаться соотношение количества правильных прогнозов к общему количеству прогнозов. Когда это значение перестанет существенно изменяться, модель остановится.
  • F1-оценкаБудет отслеживаться сочетание показателей точности и отклика модели. Когда это значение перестанет существенно изменяться, модель остановится.
  • MIoUБудет отслеживаться среднее значение между пересечением и объединением (IoU) сегментированных объектов по всем изображениям тестового набора данных. Когда это значение перестанет существенно изменяться, модель остановится.
  • НарезатьПроизводительность модели будет отслеживаться с помощью метрики Dice. Когда это значение перестанет существенно изменяться, модель остановится.Это значение может варьироваться от 0 до 1. Значение 1 соответствует идеальному совпадению пикселов между данными проверки и данными обучения.
  • ТочностьБудет отслеживаться точность, которая измеряет точность модели при классификации образца как положительного. Когда это значение перестанет существенно изменяться, модель остановится.Точность – это соотношение между количеством правильно классифицированных положительных образцов и общим количеством классифицированных образцов (правильно или неправильно).
  • ОткликБудет отслеживаться отклик, который измеряет способность модели обнаруживать положительные образцы. Когда это значение перестанет существенно изменяться, модель остановится.Чем выше отклик, тем больше положительных образцов обнаруживается. Значение отклика представляет собой соотношение между количеством положительных образцов, правильно классифицированных как положительные, и общим количеством положительных образцов.
  • Corpus bleuБудет отслеживаться показатель Corpus blue. Когда это значение перестанет существенно изменяться, модель остановится.Эта оценка используется для расчета точности нескольких предложений, таких как абзац или документ.
  • Multi label F-betaБудет отслеживаться средневзвешенное гармоническое значение точности и отклика. Когда это значение перестанет существенно изменяться, модель остановится.Это часто называют показателем F-бета.
String
Включить Tensorboard
(Дополнительный)

Указывает, будут ли включены метрики Tensorboard во время обучения инструмента. Доступ к Tensorboard можно получить, используя URL-адрес в сообщениях инструмента.

Этот параметр поддерживается только для следующих моделей: CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution и U-Net Classifier.

  • Не отмечено — метрики Tensorboard не будут включены. Используется по умолчанию.
  • Отмечено — метрики Tensorboard будут включены.

Boolean

Производные выходные данные

ПодписьОписаниеТип данных
Выходная модель

Выходной файл обученной модели.

File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})
ИмяОписаниеТип данных
in_folder
[in_folder,...]

Папки, содержащие кусочки изображений, метки и статистику, необходимые для обучения модели. Это результат работы инструмента Экспорт обучающих данных для глубокого обучения.

Несколько входных папок поддерживаются при выполнении следующих условий:

  • Типом формата метаданных должны быть классифицированные листы, отмеченные листы, листы с несколькими метками, классы визуальных объектов Pascal или маски RCNN.
  • Все обучающие данные должны иметь один и тот же формат метаданных.
  • Все обучающие данные должны иметь одинаковое количество каналов.

Folder
out_folder

Местоположение выходной папки, в которой будет храниться обученная модель.

Folder
max_epochs
(Дополнительный)

Максимальное число эпох, для которых будет обучаться модель. Максимальная эпоха, равная 1, означает, что набор данных будет передан через нейронную сеть вперед и назад один раз. Значение по умолчанию равно 20.

Long
model_type
(Дополнительный)

Задает тип модели, который будет применен для обучения модели глубокого обучения.

  • BDCN_EDGEDETECTORДля обучения модели будет использоваться архитектура двунаправленной каскадной сети (Bi-Directional Cascade Network (BDCN)). BDCN Edge Detector используется для классификации пикселов. Этот подход полезен для улучшения обнаружения границ объектов в разных масштабах.
  • CHANGEDETECTORДля обучения модели будет использоваться архитектура Change detector. Change detector используется для классификации пикселов. Этот подход создает объект модели, который использует два пространственно-временных изображения для создания классифицированного растра изменений. Входные обучающие данные для этого типа модели используют формат метаданных Classified Tiles.
  • CLIMAXДля обучения модели будет использоваться архитектура ClimaX. Эта модель в основном используется для анализа погоды и климата. ClimaX используется для классификации пикселов. Предварительные данные, используемые для этого метода, представляют собой многомерные данные.
  • CONNECTNETДля обучения модели будет использоваться архитектура ConnectNet. ConnectNet используется для классификации пикселов. Этот подход применяется для извлечения дорожной сети из спутниковых снимков.
  • CYCLEGANДля обучения модели будет использоваться архитектура CycleGAN. CycleGAN используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Этот подход уникален тем, что для обучения, изображения не должны перекрываться. Входные обучающие данные для этого типа модели используют формат метаданных CycleGAN.
  • DEEPLABДля обучения модели будет использоваться архитектура DeepLabV3. DeepLab используется для классификации пикселов.
  • DEEPSORTДля обучения модели будет использоваться архитектура Deep Sort. Deep Sort используется для обнаружения объектов на видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных Imagenet. While Siam Mask полезен при отслеживании объекта, а Deep Sort полезен при обучении модели отслеживанию нескольких объектов.
  • DETREGДля обучения модели будет использоваться архитектура DETReg. DETReg используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют Pascal Visual Object Classes. Этот тип модели интенсивно использует GPU; для правильной работы требуется выделенный графический процессор с объемом памяти не менее 16 ГБ.
  • FASTERRCNNДля обучения модели будет использоваться архитектура FasterRCNN. FasterRCNN используется для обнаружения объектов.
  • FEATURE_CLASSIFIERДля обучения модели будет использоваться архитектура классификатора объектов. Классификатор объектов используется для классификации объектов или изображений.
  • HED_EDGEDETECTORДля обучения модели будет использоваться архитектура целостно-вложенного обнаружения границ (Holistically-Nested Edge Detection (HED)). HED Edge Detector используется для классификации пикселов. Этот подход полезен для обнаружения краев и границ объектов.
  • IMAGECAPTIONERДля обучения модели будет использоваться архитектура Image captioner. Image captioner используется для перевода изображения в текст. Этот подход создает модель, которая генерирует текстовые подписи к изображению.
  • MASKRCNNДля обучения модели будет использоваться архитектура MaskRCNN. MaskRCNN используется для обнаружения объектов. Этот подход используется для сегментации экземпляров, которая представляет собой точное выделение объектов на изображении. Эту модель можно использовать для обнаружения контуров зданий. Она работает с форматом метаданных MaskRCNN в качестве входных данных обучения. Значения классов для входных обучающих данных должны начинаться с единицы. Модели этого типа можно обучать только с помощью GPU с поддержкой CUDA.
  • MAXDEEPLABДля обучения модели будет использоваться архитектура MaX-DeepLab. MaX-DeepLab используется для общей сегментации. Этот подход создает объект модели, который генерирует изображения и объекты. Входные обучающие данные для этого типа модели используют формат метаданных Panoptic segmentation.
  • MMDETECTIONДля обучения модели будет использоваться архитектура MMDetection. MMDetection используется для обнаружения объектов. Поддерживаемые форматы метаданных: прямоугольники Pascal Visual Object Class и прямоугольники KITTI.
  • MMSEGMENTATIONДля обучения модели будет использоваться архитектура MMSegmentation. MMSegmentation используется для классификации пикселов. Поддерживаемый формат метаданных Classified Tiles.
  • MULTITASK_ROADEXTRACTORДля обучения модели будет использоваться архитектура Multi Task Road Extractor. Multi Task Road Extractor используется для классификации пикселов. Этот подход применяется для извлечения дорожной сети из спутниковых снимков.
  • PIX2PIXДля обучения модели будет использоваться архитектура Pix2Pix. Pix2Pix используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • PIX2PIXHDДля обучения модели будет использоваться архитектура Pix2PixHD. Pix2PixHD используется для преобразования изображений в изображения. Этот подход создает объект модели, который преобразовывает изображения одного типа в другой. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • PSETAEДля обучения модели классификации временных рядов будет использоваться Архитектура Pixel-Set Encoders и Temporal Self-Attention (PSETAE). PSETAE используется для классификации пикселов. Предварительные данные, используемые для этого метода, представляют собой многомерные данные.
  • PSPNETДля обучения модели будет использоваться архитектура Pyramid Scene Parsing Network (PSPNET). PSPNET используется для классификации пикселов.
  • RETINANETДля обучения модели будет использоваться архитектура RetinaNet. RetinaNet используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • RTDETRV2Для обучения модели будет использоваться усовершенствованная архитектура Real-Time DEtection TRansformer (RTDetrV2). RTDetrV2 создан на основе предыдущего детектора реального времени RT-DETR. RTDetrV2 используется для обнаружения объектов. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes и прямоугольников KITTI.
  • SAMLORAДля обучения модели будет использоваться модель Segment Anything Model (SAME) с Адаптацией низкого ранга (LoRa). Этот тип модели использует модель SAM в качестве базовой модели и будет точно настраиваться под конкретную задачу с относительно низкими вычислительными требованиями и меньшим набором данных.
  • SIAMMASKДля обучения модели будет использоваться архитектура Siam Mask. Siam Mask используется для обнаружения объектов на видео. Модель обучается с использованием кадров видео и определяет классы и ограничивающие рамки объектов в каждом кадре. Входные обучающие данные для этого типа модели используют формат метаданных MaskRCNN.
  • SSDДля обучения модели будет использоваться архитектура Single Shot Detector (SSD). Для обнаружения объектов используется SSD. Входные обучающие данные для этого типа модели используют формат метаданных Pascal Visual Object Classes.
  • SUPERRESOLUTIONДля обучения модели будет использоваться архитектура Super-resolution. Super-resolution используется для преобразования изображений в изображения. Этот подход создает объект модели, который увеличивает разрешение и улучшает качество изображений. Входные обучающие данные для этого типа модели используют формат метаданных Export Tiles.
  • UNETДля обучения модели будет использоваться архитектура U-Net. Для классификации пикселов используется U-Net.
  • YOLOV3Для обучения модели будет использоваться архитектура YOLOv3. YOLOv3 используется для обнаружения объектов.
String
batch_size
(Дополнительный)

Число обучающих выборок, которые будут обрабатываться для обучения по одной за раз.

Увеличение размера пакета может повысить производительность инструмента, но по мере его увеличения используется все больше памяти.

Если для пакета заданного размера недостаточно памяти графического процессора, попробуйте установить и использовать оптимальный размер пакета. При появлении ошибки переполнения памяти задайте меньший размер пакета.

Long
arguments
[arguments,...]
(Дополнительный)

Информация из параметра model_type будет использоваться для установки значений по умолчанию для этого параметра. Эти аргументы меняются в зависимости от архитектуры модели. Поддерживаемые аргументы модели для моделей, обученных в ArcGIS, описаны ниже. Предварительно обученные модели ArcGIS и пользовательские модели глубокого обучения могут иметь дополнительные аргументы, поддерживаемые инструментом.

Дополнительные сведения о том, какие аргументы доступны для каждого типа модели, см. в разделе Аргументы глубокого обучения.

Value Table
learning_rate
(Дополнительный)

Скорость, с которой существующая информация будет перезаписываться вновь полученными данными в процессе обучения. Если значение не задано, оптимальная скорость обучения будет извлечена из кривой обучения в процессе обучения.

Double
backbone_model
(Дополнительный)

Задает предварительно настроенную нейросеть, которая будет использоваться в качестве архитектуры для обучения новой модели. Это метод называется Transfer Learning (передача модели обучения).

  • 1.40625degЭта опорная модель была обучена на основе изображений, в которых разрешение каждой ячейки сетки охватывает область размером 1,40625 градуса на 1,40625 градуса. Она используется для прогнозирования погоды и климата. Это настройка с более высоким разрешением, позволяющая получать более точные выходные данные, но требующая большей вычислительной мощности.
  • 5.625degЭта опорная модель была обучена на основе изображений, в которых разрешение каждой ячейки сетки охватывает область размером 5,625 градуса на 5,625 градуса. Она используется для прогнозирования погоды и климата. Это считается настройкой с низким разрешением, но она требует меньшей вычислительной мощности.
  • DENSENET121Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 121 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DENSENET161Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 161 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DENSENET169Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 169 слоев. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • DENSENET201Предварительно настроенная модель будет представлять собой плотную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 201 слой. В отличие от ResNET, который объединяет слои с помощью суммирования, DenseNet объединяет слои посредством конкатенации.
  • MOBILENET_V2Предварительно настроенная модель будет обучаться на базе данных Imagenet, имеет глубину 54 слоя и предназначена для вычислений на периферийных устройствах, поскольку использует меньше памяти.
  • RESNET18Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 18 слоев.
  • RESNET34Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 34 слоя. Используется по умолчанию.
  • RESNET50Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 50 слоев.
  • RESNET101Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 101 слой.
  • RESNET152Предварительно настроенная модель будет представлять собой остаточную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 152 слоя.
  • VGG11Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 11 слоев.
  • VGG11_BNПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 11 слоев.
  • VGG13Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 13 слоев.
  • VGG13_BNПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 13 слоев.
  • VGG16Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 16 слоев.
  • VGG16_BNПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 16 слоев.
  • VGG19Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений для классификации изображений на 1000 категорий объектов и имеет глубину 19 слоев.
  • VGG19_BNПредварительно настроенная модель будет основана на сети VGG, но с пакетной нормализацией, включающей нормализацию каждого слоя в сети. Она обучена на наборе данных Imagenet и содержит 19 слоев.
  • DARKNET53Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который содержит более 1 миллиона изображений и имеет глубину 53 слоя.
  • REID_V1Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который используется для отслеживания объектов.
  • REID_V2Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, который используется для отслеживания объектов.
  • RESNEXT50Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, и иметь глубину 50 слоев. Это однородная нейронная сеть, которая уменьшает количество гиперпараметров, необходимых для обычной ResNet.
  • WIDE_RESNET50Предварительно настроенная модель будет представлять собой сверточную нейронную сеть, обученную на наборе данных Imagenet, и иметь глубину 50 слоев. Она имеет ту же архитектуру, что и ResNET, но с большим количеством каналов.
  • SR3Предварительно настроенная модель будет использовать модель Super Resolution via Repeated Refinition (SR3). SR3 адаптирует вероятностные модели диффузионного подавления шума к условному созданию изображений и обеспечивает сверхразрешение с помощью стохастического процесса подавления шума. Более подробно см. раздел Image Super-Resolution via Iterative Refinement на сайте arXiv.
  • SR3_UVITЭта опорная модель относится к конкретной реализации архитектуры на основе Vision Transformer (ViT), разработанной для диффузионной модели в задачах генерации изображений и SR3.
  • VIT_BПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с базовым размером нейронной сети. Это самый маленький размер. Более подробно см. раздел Segment Anything на сайте arXiv.
  • VIT_LПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с большим размером нейронной сети. Более подробно см. раздел Segment Anything на сайте arXiv.
  • VIT_HПредварительно настроенная модель Segment Anything Model (SAM) будет использоваться с огромным размером нейронной сети. Это самый большой размер. Более подробно см. раздел Segment Anything на сайте arXiv.

Кроме того, поддерживаемые нейронные сети свертки из моделей изображений PyTorch (timm) можно указать, используя timm в качестве префикса, например, timm:resnet31 , timm:inception_v4 , timm:efficientnet_b3 и т.д.

String
pretrained_model
(Дополнительный)

Предварительно обученная модель, которая будет использоваться для уточнения новой модели. На входе берется файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk).

Предварительно обученная модель с похожими классами может быть уточнена для соответствия новой модели. Предварительно обученная модель должна быть обучена с помощью модели того же типа и базовой моделью, которые будут использоваться для обучения новой модели. Тонкая настройка поддерживается только для моделей, обученных с использованием ArcGIS.

File
validation_percentage
(Дополнительный)

Процент обучающих выборок, которые будут использоваться для проверки модели. Значением по умолчанию является 10.

Double
stop_training
(Дополнительный)

Определяет, будут ли реализованы новые остановки.

  • STOP_TRAININGБудет реализована ранняя остановка, и обучение модели остановится, когда модель перестанет улучшаться, независимо от заданного значения параметра max_epochs. Используется по умолчанию.
  • CONTINUE_TRAININGРанняя остановка не будет реализована, и обучение модели будет продолжаться до тех пор, пока не будет достигнуто значение параметра max_epochs.
Boolean
freeze
(Дополнительный)

Указывает, будут ли заморожены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально задуманы.

  • FREEZE_MODELОпорные слои будут закреплены, а предзаданные веса и смещения не будут изменены в параметре backbone_model. Используется по умолчанию.
  • UNFREEZE_MODELОпорные слои не будут закреплены, а веса и смещения параметра backbone_model можно изменить, чтобы они соответствовали обучающим выборкам. Это требует больше времени для обработки, но обычно дает лучшие результаты.
Boolean
augmentation
(Дополнительный)

Указывает тип увеличения данных, который будет использоваться.

Увеличение данных — это метод искусственного увеличения обучающего набора путем создания модифицированных копий набора данных с использованием существующих данных.

  • DEFAULTБудут использоваться методы и значения увеличения данных по умолчанию.Методы увеличения данных по умолчанию: crop, dihedral_affine, brightness, contrast и zoom. Эти значения по умолчанию обычно хорошо подходят для спутниковых изображений.
  • NONEУвеличение данных использоваться не будет.
  • CUSTOMЗначения увеличения данных будут заданы с помощью параметра augmentation_parameters. Это позволяет осуществлять прямой контроль над преобразованиями crop, rotate, brightness, contrast и zoom.
  • FILEПреобразования fastai для увеличения обучающих наборов данных и наборов данных проверки будут заданы с помощью файла transforms.json, который находится в той же папке, что и обучающие данныеДля получения дополнительной информации о различных преобразованиях см. vision transforms на сайте fastai.
String
augmentation_parameters
[augmentation_parameters,...]
(Дополнительный)

Задает значение для каждого преобразования в параметре увеличения.

  • rotate — Изображение будет повернуто случайным образом (в градусах) по вероятности (p). Если градусы представляют диапазон (a,b), значение будет равномерно присвоено от a до b. Значение по умолчанию – 30.0; 0.5.
  • brightness — Яркость изображения будет произвольно регулироваться в зависимости от значения изменения с вероятностью (p). Изменение 0 преобразует изображение в самое темное, а изменение 1 преобразует изображение в самое светлое. Изменение 0,5 не отрегулирует яркость. Если изменение представляет диапазон (a,b), увеличение будет равномерно назначать значение от a до b. Значение по умолчанию – (0.4,0.6); 1.0.
  • contrast — Контрастность изображения будет случайным образом регулироваться в зависимости от значения масштаба с вероятностью (p). Масштаб 0 преобразует изображение в оттенки серого, а масштаб больше 1 преобразует изображение в суперконтрастное. Масштаб 1 не регулирует контрастность. Если масштаб представляет диапазон (a,b), увеличение будет равномерно назначать значение отa до b. Значение по умолчанию (0.75, 1.5); 1.0.
  • zoom — Изображение будет произвольно увеличиваться в зависимости от значения масштаба. Значение масштаба имеет вид scale(a,b); p. Значение по умолчанию — (1.0, 1.2); 1.0, где p - вероятность. Только масштаб больше 1.0 приведет к увеличению изображения. Если масштаб представляет диапазон (a,b), будет равномерно назначено значение от a до b.
  • crop — Изображение будет обрезано случайным образом. Значение обрезки имеет вид size;p;row_pct;col_pct, где p - вероятность. Положение задается (col_pct, row_pct), с помощью col_pct и row_pct, нормализованными между 0 и 1. Если col_pct или row_pct это диапазон (a,b), будет равномерно назначено значение от a до b. Значение по умолчанию chip_size;1.0; (0, 1); (0, 1), где 224 — размер фрагмента по умолчанию.

Value Table
chip_size
(Дополнительный)

Размер изображения, которое будет использоваться для обучения модели. Изображения будут обрезаны до указанного размера фрагмента.

Размер фрагмента по умолчанию будет таким же, как размер листа обучающих данных. Если значения для размера листа по X и по Y отличаются, меньшее значение будет использовано для размера фрагмента по умолчанию. Размер фрагмента должен быть меньше, чем наименьший размер листа по X или Y для всех изображений во входных папках.

Long
resize_to
(Дополнительный)

Изменяет размеры фрагментов изображения. После изменения размера фрагмента блоки пикселов будут обрезаны по размеру фрагмента и использованы для обучения. Этот параметр применяется только к обнаружению объектов (PASCAL VOC), классификации объектов (помеченные листы) и данным сверхвысокого разрешения.

Значение изменения размера часто составляет половину значения размера фрагмента. Если значение изменения размера меньше значения размера фрагмента, значение изменения размера используется для создания блоков пикселей для обучения.

String
weight_init_scheme
(Дополнительный)

Задает схему, в которой будут инициализироваться веса для слоя.

Чтобы обучить модель с помощью мультиспектральных данных, модель должна учитывать различные типы доступных каналов. Это делается путем повторной инициализации первого слоя модели.

  • RANDOMСлучайные веса будут инициализированы для каналов, отличных от RGB, а предварительно обученные веса будут сохранены для каналов RGB. Используется по умолчанию.
  • RED_BANDВеса, соответствующие красному каналу из слоя предварительно обученной модели, будут клонированы для каналов, отличных от RGB, а предварительно обученные веса будут сохранены для каналов RGB.
  • ALL_RANDOMСлучайные веса будут инициализированы как для каналов RGB, так и для каналов, отличных от RGB. Эта опция применима только к мультиспектральным изображениям.

Этот параметр применим только в том случае, если в модели используются мультиспектральные изображения.

String
monitor
(Дополнительный)

Задает метрику, которая будет отслеживаться при проверке контрольных точек и ранней остановке.

  • VALID_LOSSБудут отслеживаться потери проверки. Когда потери проверки перестанут существенно изменяться, модель остановится. Используется по умолчанию.
  • AVERAGE_PRECISIONБудет контролироваться средневзвешенное значение точности на каждом пороге. Когда это значение перестанет существенно изменяться, модель остановится.
  • ACCURACYБудет отслеживаться соотношение количества правильных прогнозов к общему количеству прогнозов. Когда это значение перестанет существенно изменяться, модель остановится.
  • F1_SCOREБудет отслеживаться сочетание показателей точности и отклика модели. Когда это значение перестанет существенно изменяться, модель остановится.
  • MIOUБудет отслеживаться среднее значение между пересечением и объединением (IoU) сегментированных объектов по всем изображениям тестового набора данных. Когда это значение перестанет существенно изменяться, модель остановится.
  • DICEПроизводительность модели будет отслеживаться с помощью метрики Dice. Когда это значение перестанет существенно изменяться, модель остановится.Это значение может варьироваться от 0 до 1. Значение 1 соответствует идеальному совпадению пикселов между данными проверки и данными обучения.
  • PRECISIONБудет отслеживаться точность, которая измеряет точность модели при классификации образца как положительного. Когда это значение перестанет существенно изменяться, модель остановится.Точность – это соотношение между количеством правильно классифицированных положительных образцов и общим количеством классифицированных образцов (правильно или неправильно).
  • RECALLБудет отслеживаться отклик, который измеряет способность модели обнаруживать положительные образцы. Когда это значение перестанет существенно изменяться, модель остановится.Чем выше отклик, тем больше положительных образцов обнаруживается. Значение отклика представляет собой соотношение между количеством положительных образцов, правильно классифицированных как положительные, и общим количеством положительных образцов.
  • CORPUS_BLEUБудет отслеживаться показатель Corpus blue. Когда это значение перестанет существенно изменяться, модель остановится.Эта оценка используется для расчета точности нескольких предложений, таких как абзац или документ.
  • MULTI_LABEL_FBETAБудет отслеживаться средневзвешенное гармоническое значение точности и отклика. Когда это значение перестанет существенно изменяться, модель остановится.Это часто называют показателем F-бета.
String
tensorboard
(Дополнительный)

Указывает, будут ли включены метрики Tensorboard во время обучения инструмента. Доступ к Tensorboard можно получить, используя URL-адрес в сообщениях инструмента.

Этот параметр поддерживается только для следующих моделей: CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution и U-Net Classifier.

  • DISABLE_TENSORBOARDМетрики Tensorboard не будут включены. Используется по умолчанию.
  • ENABLE_TENSORBOARDМетрики Tensorboard будут включены.
Boolean

Производные выходные данные

ИмяОписаниеТип данных
out_model_file

Выходной файл обученной модели.

File

Пример кода

TrainDeepLearningModel, пример 1 (окно Python)

В этом примере использовалось трансферное обучение с использованием предварительно обученной модели.

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")
TrainDeepLearningModel, пример 2 (автономный скрипт)

В этом примере обучается модель обнаружения объектов с использованием подхода SSD.

# Import system modules and check out ArcGIS Image Analyst extension license
import arcpy
arcpy.CheckOutExtension("ImageAnalyst")
from arcpy.ia import *
 
# Set local variables
in_folder=r"C:\DL_models\training\Trees"
out_folder=r"C:\DL_models\model\Trees_DL1"
max_epochs=20
model_type="SSD"
batch_size=8
arguments="grids #;zooms 1.0;ratios '[1.0, 1.0]';drop 0.3;bias -0.4;focal_loss False;location_loss_factor #;backend pytorch"
learning_rate=None
backbone_model="VGG19"
pretrained_model=None
validation_percent=10
stop_training="STOP_TRAINING"
freeze="FREEZE_MODEL"
augmentation="DEFAULT"
augmentation_parameters=None
chip_size=224
resize_to=""
weight_init_scheme=""
monitor="VALID_LOSS"
tensorboard="ENABLE_TENSORBOARD"


# Execute
arcpy.ia.TrainDeepLearningModel(in_folder, out_folder, max_epochs, 
    model_type, batch_size, arguments, learning_rate, backbone_model, 
    pretrained_model, validation_percent, stop_training, freeze, 
    augmentation, augmentation_parameters, chip_size, resize_to, 
    weight_init_scheme, monitor, tensorboard)

Информация о лицензиях

  • Basic: Обязательно Image Analyst
  • Standard: Обязательно Image Analyst
  • Advanced: Обязательно Image Analyst

Связанные разделы