像素分类—ArcGIS Pro

获得 Image Analyst 许可后可用。

以下概念和方法是了解像素分类以及在 ArcGIS Pro 中执行该操作的关键。

语义分割

语义分割（也称为基于像素的分类）是一项重要任务，其中每个像素的分类均属于特定类。在 GIS 中，您可以使用分割进行土地覆盖分类或从卫星影像中提取道路或建筑物。

语义分割

显示语义分割的示例。

语义分割的目标与遥感中传统影像分类相同。通常通过应用传统的机器学习技术（例如随机森林或最大似然分类器）进行语义分割。与影像分类一样，语义分割也有两个输入：

包含多个波段的光栅影像
包含每个像素的标注的标注影像

使用稀疏数据训练

并非影像中的每个像素均用于训练样本的分类。这称为稀疏训练样本。下面是选择的影像和稀疏训练样本的图表。对于如下稀疏训练样本，您必须将忽略类参数设置为 0。这将忽略尚未分类用于训练的像素。

稀疏训练样本

显示稀疏训练样本的示例。

U-Net

可将 U-Net 架构视为编码器网络（后跟解码器网络）。语义分割可对像素要素进行分类，并且系统在编码器的不同阶段识别这种像素级别分类。

编码器是 U-Net 过程的前半部分。编码器通常为预训练分类网络，例如 VGG 或 ResNet，您可以在其中应用卷积块，然后进行 maxpool 下采样，以将输入影像编码为多个级别的要素表示¹。解码器是该过程的后半部分。目标是从语义上将编码器识别的判别性要素（较低分辨率）投影到像素空间（较高分辨率），以获得密集分类。解码器可执行上采样和连接操作，然后执行常规卷积操作¹

参考资料

[1] Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net: Convolutional Networks for Biomedical Image Segmentation, https://arxiv.org/abs/1505.04597, (2015).

PSPNet

金字塔方案解析网络 (PSPNet) 模型由编码器和解码器组成。编码器可用于从影像中提取要素。解码器可在过程结束时预测像素类。

DeepLab

全卷积神经网络 (FCN) 通常用于语义分割。在影像上使用 FCN 执行分割任务将会面临挑战：在遍历网络的卷积层和池化层时，输入要素地图会变得更小。这会导致有关影像的信息丢失，并导致预测分辨率低且对象边界模糊的输出。

DeepLab 模型可通过使用 Atrous 卷积和 Atrous 空间金字塔池 (ASPP) 模块应对这一挑战。第一个版本的 DeepLab (DeepLabV1) 使用 Atrous 卷积和全连接条件随机场 (CRF) 控制计算影像要素的分辨率。

ArcGIS Pro 使用 DeepLabV3。 DeepLabV3 还使用 Atrous 卷积，也会包括批量归一化和影像级要素，以使用改进的 ASPP 模块。该模块不再使用过时的 CRF（条件随机场），就像 V1 和 V2 中的使用情况一样。

DeepLabV3 模型具有以下架构：

从主干网络（例如 VGG、DenseNet 和 ResNet）中提取要素。
为了控制要素地图的大小，需要在主干的最后几个块中使用 Atrous 卷积。
对于从主干中提取的要素，已添加 ASPP 网络，以对与其类对应的每个像素进行分类。
对 ASPP 网络的输出进行 1 x 1 卷积运算，以获得实际大小的影像，该影像将成为影像的最终分割掩码。

语义分割

使用稀疏数据训练

U-Net

参考资料

PSPNet

DeepLab

相关主题

在本主题中