标注对象以供深度学习使用

获得 Image Analyst 许可后可用。

需要 Spatial Analyst 许可。

所有监督深度学习任务都依赖于标注数据集,这意味着人类必须运用他们的知识来训练神经网络来识别或检测感兴趣的对象。 神经网络将使用标注的对象来训练可用于对数据进行推断的模型。

标注是选择感兴趣对象的代表性样本的过程。 选择用于标注的对象必须准确地描述感兴趣对象的空间、光谱、方向、大小和条件特征。 标注的对象越能代表感兴趣要素,深度学习模型的训练就越好,推理的分类和检测就越准确。

图像注记或标注对于诸如计算机视觉和学习等深度学习任务至关重要。 要训练优质的深度学习模型,需要大量的标注数据。 在获得适当的训练数据后,深度学习系统在要素提取、模式识别和复杂问题解决方面会非常准确。 可以使用深度学习标注对象窗格来标记数据。

影像选项卡上影像分类组中的深度学习工具下拉菜单中访问深度学习标注对象按钮 标注对象以供深度学习使用。 在打开该工具后,选择是使用现有图层还是创建影像集合。 对于新影像集合,浏览至影像文件夹所在的位置,随后将使用影像集合创建图层。

指定影像/影像集合参数值后,将显示标注对象窗格。 该窗格分为两个部分。 窗格上半部分用于管理类,窗格下半部分用于管理样本集合以及将训练数据导出到深度学习框架。

标注对象窗格

创建类和标注对象

可通过窗格的上半部分管理对象类,并创建用于训练深度学习模型的对象。 以下草图工具和人工智能 (AI) 辅助工具可用于创建标注对象:

工具描述
New Rectangle

通过在栅格中围绕要素或对象绘制矩形来创建标注对象。

New Polygon

通过在栅格中围绕要素或对象绘制多边形来创建标注对象。

New Circle

通过在栅格中围绕要素或对象绘制圆圈来创建标注对象。

New Lasso Area

通过在栅格中围绕要素或对象绘制手绘形状来创建标注对象。

自动检测

自动检测并标记要素或对象。 将围绕要素或对象绘制面。

此工具仅在安装了深度学习框架库时可用。

按多边形选择

通过从分割图层中选择一个分割段来创建要素。 此选项仅对内容窗格中的分割图层可用。 在内容窗格中选择分割图层可激活分割选取器,然后从分割选取器下拉列表中选择图层。

标注图像

将选定的类分配给当前影像。

这仅在影像集合模式下可用。

编辑

选择并编辑标注对象。

新建模板

创建分类方案。

浏览

选择一个分类方案选项。

  • 浏览至现有方案。
  • 从现有的训练样本要素类生成新方案。
  • 从现有的已分类栅格生成新方案。
  • 使用默认的 2011 National Land Cover Database 模式生成新模式。

保存

将更改保存至方案。

保存编辑内容

保存模式的新副本。

添加

将类类别添加到方案。 首先选择方案的名称以在最高级别下创建父类。 选择现有类的名称以创建子类。

删除所选项目

从方案中移除所选类或子类类别。

AI 辅助标注工具

用于标注对象的 AI 工具有两种类型:自动检测文本提示

自动检测工具

自动检测工具 自动检测 会自动在要素周围绘制一个矩形。 单击该要素,将绘制包含该要素的矩形边界框。 对于要素的多边形边界,在单击要素的同时按住 Shift 键,围绕要素的形状绘制周长线。 要使该工具正常运行,需要在地图上显示大量要素像素,并且需要放大以靠近要素。

自动检测工具适用于具有独特形状、锐利边缘和高对比度的特别要素。 当具有彼此非常接近的连续要素时,不建议使用该功能。

注:

要使用此功能,必须安装 ArcGIS 的深度学习框架

文本提示工具

通过文本提示工具,使用检测要素来协助标注。 在类名称文本框中键入对象的名称,然后单击检测按钮。 建议使用具有至少 12 GB RAM 的高端 GPU 来实现此功能。

要改进结果,请在配置选项中设置框阈值文本阈值。

  • 框阈值 - 该值用于影像中的对象检测。 值越高模型越严格,仅识别最置信的对象实例,减少整体检测数量。 值越低模型越宽容,将包含一些置信值较低的实例,增加检测数量。 阈值范围介于 0 到 1 之间。
  • 文本阈值 - 该值用于将检测到的对象与提供的文本提示关联起来。 较高的值需要对象和文本提示之间的关联更强,从而产生更加精确但数量更少的关联结果。 较低的值需要的关联程度较弱,会增加关联结果的数量,同时引入不太精确的匹配。 阈值范围介于 0 到 1 之间。

注:

要使用此功能,必须安装 ArcGIS 的深度学习框架

定义类对话框

可通过定义类对话框创建类或定义现有类。 如果选择使用现有类,则为该对象选择适当的类名称选项。 如果选择添加新类,则可以有选择地编辑信息,然后单击确定以创建新类。

标注对象选项卡

标注对象选项卡位于标注对象窗格的下半部分,可在其中管理为每个类别收集的训练样本。 为图像中的每个类采集代表性地点或训练样本。 训练样本中具有位置信息(面)和关联类。 影像分类算法使用训练样本(另存为要素类)来识别整个影像中的土地覆被类。

您可以通过添加、分组或移除训练样本来对其进行查看和管理。 单击训练样本后,该样本将在地图上处于选中状态。 双击表中的训练样本以在地图中缩放。

下表描述了标注对象选项卡上的工具:

工具描述
浏览

打开现有的训练样本要素类。

保存

保存对当前标注对象要素类所做的编辑。

保存编辑内容

将当前标注对象另存为新要素类。

删除所选项目

删除选定标注对象。

导出训练数据选项卡

收集样本后,可单击导出训练数据选项卡将其导出到训练数据中。 之后便可以将训练数据用于深度学习模型。 建立下述参数值后,单击运行以创建训练数据。

参数描述

输出文件夹

用于保存训练数据的输出文件夹。

掩膜面要素

此面要素类用于描绘将创建影像片的区域。

系统仅会创建完全位于面内的影像片。

图像格式

指定影像片输出的栅格格式。

  • TIFF 为默认格式。
  • MRF(元栅格格式)
  • PNG
  • JPEG

PNG 和 JPEG 格式最多支持 3 个波段。

分块大小 X

影像片的大小,针对 x 维度。

分块大小 Y

影像片的大小,针对 y 维度。

步幅 X

在创建下一个影像片时 x 方向上移动的距离。

当步幅等于切片大小时,将不会发生重叠。 当步幅等于切片大小的一半时,将有 50% 的重叠。

步幅 Y

在创建下一个影像片时 y 方向上移动的距离。

当步幅等于切片大小时,将不会发生重叠。 当步幅等于切片大小的一半时,将有 50% 的重叠。

旋转角度

将用于生成影像片的旋转角度。

首先将在无旋转的情况下生成一个影像片。 随后将以指定的角度旋转该片,以创建其他影像片。 将旋转图像并创建一个片,直到对其进行完全旋转为止。 例如,如果您指定旋转角度为 45 度,则该工具将创建 8 个影像片。 将按以下角度创建 8 个影像片:0、45、90、135、180、25、270 和 315。

输出无要素切片

指定是否将导出不捕获训练样本的影像片。

  • 未选中 - 仅会导出捕获训练样本的影像片。 这是默认设置。
  • 选中 - 将导出所有影像片,包括不捕获训练样本的影像片。

收集不包含训练样本的影像片,可以帮助模型识别那些不应被视为结果的对象,例如误报对象。 还可以减少过度拟合。

元数据格式

指定输出元数据标注使用的格式。

如果输入训练样本数据是诸如建筑物图层等的要素类图层或者标准分类训练样本文件,请使用 KITTI 标注PASCAL Visual 对象类选项(Python 中的 KITTI_rectanglesPASCAL_VOC_rectangles)。 输出元数据是包含训练样本数据的 .txt 文件或 .xml 文件,其中训练样本数据包含在最小外接矩形中。 元数据文件的名称与输入源影像名称相匹配。 如果输入训练样本数据是类地图,请使用分类切片选项(Python 中的 Classified_Tiles)作为输出元数据格式。

  • KITTI 标注 - 元数据遵循与卡尔斯鲁厄理工学院和丰田工业大学 (KITTI) 对象检测评估数据集相同的格式。 KITTI 数据集是一款视觉基准套件。 标注文件是纯文本文件。 所有的值(数值和字符串)均由空格分隔开,每行对应一个对象。
  • PASCAL 可视化对象类 - 元数据遵循与模式分析、统计建模和计算学习、可视化对象类 (PASCAL VOC) 数据集相同的格式。 PASCAL VOC 数据集是用于对象类识别的标准化影像数据集。 标注文件是 .xml 文件,包含有关影像名称、类值和边界框的信息。 这是默认设置。
  • 分类切片 - 输出为每个输入影像片一个分类影像片。 不会使用每个影像片的任何其他元数据。 仅统计数据输出具有关于类的详细信息,如类名称、类值和输出统计数据。
  • RCNN 掩膜 - 输出在样本所在的区域上具有掩膜的影像片。 该模型将为影像中对象的每个实例生成边界框和分割掩膜。 这要基于特征金字塔网络 (FPN) 和深度学习框架模型中的 ResNet101 核心支柱。
  • 标注切片 - 每个输出切片都将使用特定类进行标注。 如果选择此元数据格式,则可以进一步优化将周围要素变黑裁剪模式参数。
  • 多标注切片 - 每个输出切片都将使用一个或多个类进行标注。 例如,可将切片标注为“农业”,也可将其标注为“多云”。 此格式将用于对象分类。
  • 导出切片 - 输出将为不带标注的影像片。 此格式用于影像转换技术,例如 Pix2Pix 和超分辨率。
  • CycleGAN - 输出将为不带标注的影像片。 此格式用于影像转换技术 CycleGAN,该技术可用于训练不重叠的影像。
  • Imagenet - 每个输出切片都将使用特定类进行标注。 此格式用于对象分类;但是,在训练期间使用深度排序模型类型时,也可以用于对象追踪。

对于 KITTI 元数据格式,将创建 15 个列,但此工具中仅使用其中 5 个列。 第一个列是类值。 然后,跳过之后 3 个列。 5 至 8 列用于定义最小外接矩形,该矩形将由以下 4 个影像坐标位置构成:左、上、右和下像素。 最小外接矩形包含用于深度学习分类器中的训练片。 系统将不会使用其他列。

将周围要素变黑

指定是否对每个影像切片中的每个对象或要素周围的像素进行掩膜。

  • 未选中 - 将不会对对象或要素周围的像素进行掩膜。 这是默认设置。
  • 选中 - 将对对象或要素周围的像素进行掩膜。

仅当元数据格式参数设置为标注切片且已指定输入要素类或分类栅格时,此参数才适用。

裁剪模式

指定是否将裁剪导出的切片,从而使其大小均相同。

  • 固定大小 - 导出的切片将具有相同的大小,并将以要素为中心。 这是默认设置。
  • 边界框 - 将对导出的切片进行裁剪,以使边界几何仅围绕切片中的要素。

仅当元数据格式参数设置为标注切片Imagenet 且已指定输入要素类或分类栅格时,此参数才适用。

参考系统

指定用于解释输入影像的参考系类型。 指定的参考系必须与训练深度学习模型所使用的参考系相匹配。

  • 地图空间 - 输入影像位于基于地图的坐标系中。 这是默认设置。
  • 像素空间 - 输入影像位于影像空间(行和列)中,没有旋转和畸变。

附加输入栅格

影像转换方法的附加输入影像源。

元数据格式参数设置为已分类切片导出切片CycleGAN 时,此参数有效。

现在可以将导出的训练数据用于深度学习模型。

相关主题