Инструмент Уменьшение измерений сокращает количество измерений набора непрерывных переменных, агрегируя максимально возможное количество дисперсии в меньшее количество компонентов с помощью анализа по методу главных компонент (PCA) или линейного дискриминантного анализа пониженного ранга (LDA). Переменные указываются как поля во входной таблице или векторном слое, а новые поля, представляющие новые переменные, сохраняются в выходной таблице или классе пространственных объектов. Количество новых полей будет меньше, чем количество исходных переменных, при этом сохранится максимально возможное отклонение от всех исходных переменных.
Уменьшение измерений обычно используется для изучения многомерных отношений между переменными и для уменьшения вычислительных затрат алгоритмов машинного обучения, в которых требуемая память и время обработки зависят от количества измерений данных. Использование компонентов вместо исходных данных в алгоритмах анализа или машинного обучения часто может обеспечить сопоставимые (или лучшие) результаты при меньшем потреблении вычислительных ресурсов.
Рекомендуется использовать PCA, когда вы собираетесь провести анализ или метод машинного обучения, в котором компоненты используются для прогнозирования значения непрерывной переменной. LDA дополнительно требует, чтобы все записи были классифицированы по категориям, таким как категория землепользования, а также рекомендуется использовать LDA для выполнения анализа или метода машинного обучения, в котором компоненты используются для классификации категории категориальной переменной на основе полей численного анализа.
Возможное применение
Этот инструмент можно использовать в следующих типах сценариев:
- У вас есть класс пространственных объектов со многими полями, которые трудно визуализировать одновременно. Уменьшив набор данных до двух измерений, вы можете визуализировать данные с помощью диаграммы, чтобы увидеть многомерные взаимодействия между полями в двух измерениях.
- Вы хотите использовать аналитические инструменты из группы инструментов Моделирование пространственных отношений, такие как Обобщенная линейная регрессия или Географически взвешенная регрессия (ГВР), но многие поля сильно коррелируют друг с другом. За счет уменьшения числа измерений независимых переменных инструменты анализа смогут работать более стабильно и будут и менее подвержены подгонке к обучающим данным.
- Вы применяете метод машинного обучения, время выполнения которого быстро увеличивается с увеличением числа входных переменных. Уменьшив число измерений, вы можете получить сопоставимые результаты анализа, используя меньший объем памяти и за меньшее время.
Как работает PCA
PCA работает путем последовательного построения компонентов, каждый из которых захватывает определенный процент от общей дисперсии всех полей анализа. Каждый компонент сам по себе является линейной комбинацией (взвешенной суммой) каждого из полей анализа, где веса называются нагрузками компонента. Вместе с полями анализа нагрузки образуют собственный вектор, указывающий вклад каждого поля анализа в компонент. Компонент также связан с собственным значением, которое представляет собой общую дисперсию компонента.
Для двух полей анализа вы можете визуализировать PCA геометрически как вращающиеся оси в пространстве данных, где поворот максимизирует отношение вариабельности новых осей, как показано на следующем рисунке.
На рисунке слева каждая точка представляет собой запись входной таблицы, нанесенную в двух измерениях со значениями двух полей анализа по осям x и y. Длина синих осей представляет дисперсию каждой из двух переменных. Длины двух синих стрелок приблизительно равны, что указывает на то, что две переменные имеют приблизительно равную дисперсию. На среднем изображении оси были повернуты, чтобы лучше представить линейную зависимость между переменными. Одна из зеленых осей немного длиннее другой, что указывает на более высокую дисперсию в этом направлении. Однако такой поворот не является оптимальным. Изображение справа показывает оптимальный поворот, найденный PCA, который согласуется с линейной зависимостью между переменными. Этот поворот строит красную ось с наибольшей дисперсией. Большая из красных осей соответствует первому главному компоненту и является наилучшим одномерным представлением двумерных данных. На всех трех изображениях общая дисперсия исходных переменных одинакова, но изображение справа наибольшая возможная величина дисперсии присвоена первому компоненту, оставив наименьшую возможную величину дисперсии для второго компонента.
Вы можете увидеть собственные значения и собственные векторы для каждого компонента с помощью параметров Таблица выходных собственных значений и Таблица выходных собственных векторов, и таблица собственных векторов сопровождается гистограммой, отображающей нагрузки каждого компонента. Полную математическую информацию о PCA см. в разделе Дополнительные ресурсы.
Как работает линейный дискриминантный анализ пониженного ранга
LDA (часто сокращается как RR-LDA, т.е Reduced-Rank LDA) работает путем последовательного построения компонентов, которые максимизируют межклассовую разделимость категориальной переменной. Метод направлен на уменьшение измерений полей непрерывного анализа при сохранении высочайшей точности классификации категории категориальной переменной. Подобно PCA, компоненты LDA также связаны с собственными векторами и собственными значениями для представления вклада полей анализа в каждый компонент и величину дисперсии, поддерживаемой каждым компонентом.
Для двух непрерывных переменных анализа и категориальной переменной с двумя категориями LDA также имеет 2D-геометрическую интерпретацию, включающую повороты. На рисунке ниже показан набор данных, где каждая точка представляет собой запись входного набора данных. Оси x и y – это два непрерывных поля анализа, а точки обозначены красным или синим цветом в зависимости от их категории. Красное и синее распределения – это распределения категорий при проецировании на ось y. Существует некоторая разделимость в распределениях классов, но они имеют большое перекрытие и их трудно разделить. Аналогичное отсутствие разделения возникает при проецировании на ось x.
На рисунке ниже показан оптимальный поворот оси, определяемый LDA. Этот поворот приводит к наибольшему разделению между распределениями категорий, что позволяет достичь наивысшей скорости классификации категории.
Если создается хотя бы два компонента, в выходных данных будет содержаться точечная диаграмма Линейный дискриминант. Значения первого и второго компонентов нанесены на оси, а точки раскрашены по их категории. Если первые два компонента содержат достаточно информации, чтобы различать категории, точки на графике могут быть сгруппированы по категориям.
Вы можете видеть собственные значения и собственные векторы для каждого компонента с помощью параметров Таблица выходных собственных значений и Таблица выходных собственных векторов, и таблица собственных векторов сопровождается гистограммой, отображающей нагрузки каждого компонента. Полную математическую информацию о LDA см. в разделе Дополнительные ресурсы.
Определение количества компонентов
Один из наиболее важных вариантов уменьшения измерений – это количество создаваемых компонентов. Это эквивалент выбора того, сколько измерений входных данных следует уменьшить. Иногда вы можете знать, сколько компонентов вам нужно, основываясь на предполагаемом анализе, например, при использовании метода машинного обучения, который может эффективно работать только с четырьмя переменными. В других случаях может потребоваться использовать столько основных компонентов, сколько необходимо для поддержания, например, 90% общей дисперсии исходных данных. В других ситуациях может потребоваться баланс между минимизацией количества компонентов и максимизацией поддерживаемого процента дисперсии.
В обоих методах сокращения данных для полей анализа p процентная дисперсия, объясняемая i-м компонентом, является , где di – собственное значение i-ого компонента. Каждый последующий компонент сохраняет меньший процент от общей дисперсии, чем предыдущий компонент.
Количество компонентов, используемых инструментом, зависит от того, заданы ли значения для Минимального количества компонентов и Минимальной поддерживаемой процентной дисперсии.
- Если один параметр указан, а другой нет, значение указанного параметра определяет количество компонентов. Количество компонентов равно наименьшему числу, необходимому для удовлетворения заданного минимума.
- Если указаны оба параметра, используется большее из двух результирующих чисел компонентов.
- Если ни один из параметров не указан, количество компонентов определяется с помощью нескольких статистических методов, и инструмент использует наибольшее значение количества компонентов, рекомендованного каждым из методов. Для обоих методов уменьшения измерений используются Метод сломанной трости (англ. Broken Stick Method) и Коэффициент сферичности Бартлетта. Для PCA проверка перестановки также выполняется, если значение параметра Число перестановок больше нуля. Результаты статистических тестов отображаются в виде сообщений геообработки. Математические детали этих трех тестов можно найти в разделе Дополнительные ресурсы.
Выходная таблица собственных значений сопровождается настраиваемой линейной диаграммой, называемой График собственных значений (График Кеттлера), чтобы показать процент дисперсии, поддерживаемый каждым компонентом. На Графике собственных значений ниже ось x показывает каждый последовательный компонент, а красная линия показывает процентную дисперсию, объясняемую каждым компонентом. Красная линия убывает, указывая, что каждый новый компонент сохраняет меньшую величину дисперсии, чем предыдущий компонент. Вертикальная черная линия над компонентом 2 на оси x указывает, что инструмент использовал два компонента, и они поддерживали 95,8% общей дисперсии исходных переменных. Синяя линия показывает результаты Метода сломанной трости, используемого для оценки оптимального количества компонентов. Оптимальное количество компонентов часто соответствует точке, где пересекаются красная и синяя линии, что указывает на согласие в количестве компонентов.
Лучшие практики и ограничения
При использовании этого инструмента необходимо учитывать следующее:
- Для PCA результаты этого анализа зависят от того, масштабируются ли переменные. Поскольку PCA разбивает общую дисперсию на компоненты, чем больше необработанные значения поля анализа, тем выше процент общей дисперсии, связанный с ними. Масштабирование каждого из полей анализа для получения дисперсии, равной единице, устраняет этот эффект. Например, если поля анализа масштабируются, данные, измеренные в футах, и данные, измеренные в метрах, дают к одни и те же компоненты. Если не масштабируются, то данные, измеренные в футах, вносят больший вклад в первый компонент, чем те же данные в метрах. Это происходит потому, что значение расстояния, измеренное в футах, больше, чем то же самое значение расстояния, измеренное в метрах (1 метр = 3,2808 фута).
- PCA оценивает собственные значения и собственные векторы, предполагая наличие линейной зависимости между всеми полями анализа. Если отношения между полями анализа нелинейны, то PCA не позволяет точно зафиксировать эти отношения. Рекомендуется создать матрицу точечной диаграммы ваших переменных анализа и искать нелинейные закономерности. Если найдены нелинейные закономерности, инструмент Трансформировать поле может быть способен линеаризовать отношения.
Дополнительные ресурсы
Для получения дополнительной информации о PCA и LDA см. следующую ссылку:
- James, G., Witten, D., Hastie, T., Tibshirani, R. (2014). "An Introduction to Statistical Learning: with Applications in R." Springer Publishing Company, Incorporated. https://doi.org/10.1007/978-1-4614-7138-7
Дополнительную информацию о методах определения количества компонентов см. следующую ссылку:
- Peres-Neto, P., Jackson, D., Somers, K. (2005). "How many principal components? Stopping rules for determining the number of non-trivial axes revisited." Computational Statistics & Data Analysis. 49.4: 974-997. https://doi.org/10.1016/j.csda.2004.06.015.