Как работает инструмент Создать куб Пространство-Время.

Создание куба пространства-времени позволяет визуализировать и анализировать пространственно-временные данные в виде анализа временных рядов, интегрированного анализа пространственных и временных закономерностей и техники 2D и 3D визуализации. Для создания куба пространства-времени для анализа можно применить три инструмента: Создать куб Пространство-Время по агрегации точек, Создать куб Пространство-Время из указанных местоположений и Создать куб Пространство-Время из многомерного растрового слоя. Первые два инструмента структурируют объекты с временной меткой в куб данных netCDF, генерируя бины пространства-времени либо по агрегированным точкам инцидентов, либо по заданным объектам с ассоциированными пространственно-временными атрибутами Третий инструмент преобразует многомерный растровый слой с поддержкой времени в пространственно-временной куб и не выполняет никакой пространственной или временной агрегации.

Если у вас имеются точечные объекты с временной меткой, которые вы хотите агрегировать в пространстве, чтобы определить пространственно-временные закономерности в изучаемых местоположениях, используйте инструмент Создать куб Пространство-Время по агрегации точек. В результате вы получите либо куб сетки (с прямоугольными или гексагональными ячейками), либо куб, структурированный по заданным местоположениям, использованным как полигоны агрегации. В каждом бине этого куба выполняется подсчет количества точек, вычисляется статистика Поля суммирования, и определяется наличие трендов во времени в каждом местоположении с использованием статистики Манна-Кенделла. При агрегировании с использованием сетки или гексагональной сетки создается куб сетки. При агрегировании с использованием набора определенных местоположений в качестве полигонов агрегации создается куб определенных местоположений. Создание куба пространства-времени по агрегации точек используется чаще всего, когда обрабатываются точечные данные инцидентов, например, происшествия или продажи, и вы хотите агрегировать эти инциденты в сетку либо в набор полигонов, соответствующих полицейским округам или территориям продаж.

Если у вас есть местоположения объектов, которые не меняются со временем, и атрибуты или измерения собранные с течением времени, например, панельные данные или данные станций, используйте инструмент Создать куб Пространство-Время из указанных местоположений. В результате вы получите куб, структурированный по заданным местоположениям, с либо одним набором атрибутов временного периода (если не выбрана агрегация по времени), либо суммарной статистикой по каждому временному периоду для выбранного атрибута (если выбрана агрегация по времени). В каждом бине куба указанных местоположений вычисляется число наблюдений для данного бина в указанные период и любая статистика Переменные или Поле суммирования, тренд значений бина во времени в каждом местоположении измеряется с помощью статистики Манна-Кенделла.

Если у вас есть многомерный растр и вы хотите выполнить пространственно-временной анализ с помощью инструментов в наборе инструментов Пространственно-временные закономерности, используйте инструмент Создать куб Пространство-Время из многомерного растрового слоя, чтобы преобразовать многомерный растр в пространственно-временной куб. Выходной пространственно-временной куб будет иметь то же пространственное и временное разрешение, что и многомерный растр, в котором каждая ячейка растра каждого измерения преобразуется в один пространственно-временной бин. Тренды изменений значений во времени будут проанализированы с помощью статистики Манна-Кендалла. Большая часть информации в этом разделе не относится к этому инструменту, поскольку структура куба Пространство-время определяется структурой многомерного растра и не может быть изменена.

Настройка структуры куба

В большинстве случаев вы должны знать как задать размер бина куба, рекомендуется подобрать подходящий размер, который будет соответствовать тому вопросу, на который вы хотите получить ответ с помощью анализа. Например, для анализа преступлений вы хотите агрегировать точки в бины размером 400 на 400 метров, исходя из размера городского квартала. Если ваши данные охватывают временной период протяженностью в один год, возможно вы захотите оценить тренды по месяцам или по неделям.

Куб сетки

Структура куба будет содержать строки, столбцы и временные шаги. Перемножив число строк на число столбцов и на число временных шагов, вы получите суммарное число бинов в кубе. Строки и столбцы определяют пространственный экстент куба, а временные шаги определяют временной экстент.

Местоположения

Куб заданных местоположений

Структура куба содержит объекты и временные шаги. Перемножив число объектов на число временных шагов, вы получите суммарное число бинов в кубе. Объекты определяют пространственный экстент куба, а временные шаги определяют временной экстент.

Куб многомерного растрового слоя

Структура куба будет иметь такое же количество пространственных объектов и временных измерений, как и количество ячеек и измерений многомерного растрового слоя.

Пространственная структура

Пространственные параметры по умолчанию для куба сетки

В тех случаях, когда у вас нет четких требований к размеру ячейки сетки для куба, можно оставить параметр Интервал расстояния пустым, и инструмент сам рассчитает значения по умолчанию.

Для вычисления расстояния бина по умолчанию сначала определяется длина более длинной стороны экстента Входных объектов (максимальный экстент). Далее размер бина задается либо как значение максимального экстента, разделенное на 100, либо по алгоритму, основанному на пространственном распределении Входных объектов (берется большее значение).

Пространственная структура куба заданных местоположений

Пространственная структура куба заданных местоположений представляет собой указанные местоположения.

Пространственная структура куба многомерного растрового слоя

Пространственная структура куба определяется пространственным экстентом и разрешением многомерного растрового слоя.

Временная структура

Временные параметры по умолчанию для куба сетки

В тех случаях, когда у вас нет четких требований к размеру интервала временного шага, вы можете оставить параметр Интервал временного шага пустым, и инструмент рассчитает значения по умолчанию. Интервал временного шага по умолчанию рассчитывается с использованием двух разных алгоритмов, определяющих оптимальное количество и ширину интервалов временного шага. Минимальное число больше 10, полученное в результате расчетов с применением двух алгоритмов, используется как значение по умолчанию для интервала временного шага. Если в результате обоих алгоритмов получено число меньше 10, то значение по умолчанию для интервала временного шага устанавливается как 10.

Временная структура куба указанных местоположений

Вам необходимо указать временную структуру куба указанных местоположений. Если данные собирались каждые 5 лет, необходимо это указать в параметре Интервал временного шага.

Вы также можете использовать временную агрегацию в кубе указанных местоположений. Если у вас есть станции, которые определяют влажность каждые 5 минут, имеет смысл использовать Агрегацию времени, чтобы объединить эти данные в средние значения каждый час.

Если выбрана временная агрегация, вы можете получить доступ к агрегации нанеся на карту количество объектов, собранных в каждый бин. Например, если у вас есть данные, собираемые каждые 5 минут, и вы агрегируете их в часы с усреднением, вы увидите 12 объектов, агрегированные в каждый час в каждом бине. Если вы используете инструмент Визуализация куба Пространство-Время в 3D, чтобы отобразить Счетчик временной агрегации Переменная куба и видите, что несколько бинов имеют значения менее 12, то это указывает на то, что некоторые показания влажности отсутствуют. Это не всегда является проблемой, но помогает определить, что, возможно, один из датчиков дает сбои или, если в каком-либо местоположении слишком много пропущенных данных, его не следует включать в анализ.

Временная структура куба многомерного растрового слоя

Временная структура куба определяется временными размерами многомерного растрового слоя.

Выравнивание временного шага

При создании куба из указанных местоположений без агрегации времени, рекомендуется указать только Интервал временного шага, Выравнивание временного шага и Базовое время, чтобы быть уверенным, что в каждый бин попадает только одна запись. Проблема влияния времени не рассматривается.

Если вы не выполняете агрегацию и хотите использовать месячный временной интервал, а ваши данные попадают где-то между 1-м и 6-м числом месяца в соответствии с процедурой сбора, рекомендуется выбрать опцию Базовое время для Выравнивания временного шага и указать дату таким образом, чтобы 1 число месяца попадало в каждый интервал, как в направлении вперед, так и назад. Например, если у вас есть данные на 1/1, 2/3, 3/2, 4/1 и 5/3, выберите в качестве базового времени 1-е число любого месяца в вашем наборе данных, и тогда можно быть уверенным, что все данные будут включены в результирующий код.

При выполнении агрегации данных в кубе пространство-время, параметр Выравнивание временного шага очень важен, так как определяет точку начала и точку завершения агрегации. См. пример ниже:

Пример данных для Выравнивания временного шага
Рисунок выше представляет данные за период с 3 сентября по 12 сентября 2015 года. На примере указанного набора данных мы изучим различные опции этого параметра.

Конечное время

Если значение Конечное время для Выравнивания временного шага выбрано с Интервалом временного шага, равного трем дням, то биннинг будет начинаться с последней во времени точки данных с шагом назад в 3 дня до тех пор, пока все точки не попадут во временной шаг.

Агрегация с выравниванием в конечное время набора данных

Важно знать, что в зависимости от выбранного Интервала временного шага, можно создать бин в начале или в конце куба, не имеющего данных за весь временной интервал. В примере выше можно увидеть, что значения 9/1 и 9/2 включаются в первый временной шаг, даже если до значения 9/3 данные отсутствуют. Эти пустые дни являются частью временного шага, но не содержат связанных с ним данных. Это может отразиться на результатах, поскольку этот временный интервал будет содержать значительно меньшее число точек, чем другие, что является следствием схемы агрегации. В отчете показано, имеется ли временной сдвиг в первом или последнем интервале. В этом случае, два из трех дней первого шага не имеют данных, поэтому временной сдвиг будет равен 66%.

Опция Конечное время является опцией по умолчанию для Выравнивания временного шага, так как при проведении анализа важно учитывать в первую очередь недавние события, следовательно, предпочтительнее выполнять вычисление шага от конца к началу. В качестве альтернативы, чтобы избежать смещения во времени, можно предложить разбиение данных на равные интервалы с помощью Интервала временного шага, чтобы ни один из периодов не подвергался сдвигу. Это можно сделать, создав выборку данных и убрав часть набора точечных данных, выходящую за пределы временного периода, с которого вы бы хотели начать. В этом примере, выбор всех данных, кроме тех, которые имеют дату до 9/3, решит проблему. В отчете показан промежуток времени от первого и до последнего шагов, эта информация может быть использована для определения данных, которые следует убрать.

Также важно заметить, что если в процессе перемещения назад во времени последний бин точно совпал с первой точкой данных в начале, эта последняя точка данных не будет включена в данный бин. Это происходит потому, что выбрано значение Конечное время для Выравнивания временного шага каждый бин включает в себя последнюю дату данного бина, затем движется назад, но не включает в себя первую дату этого бина. В этом случае следует добавить дополнительный бин, чтобы включить и первую точку данных.

Начальное время

Если значение Начальное время для Выравнивания временного шага выбрано с Интервалом временного шага, равного трем дням, то биннинг будет начинаться с первой во времени точки данных с шагом в 3 дня до тех пор, пока последняя точка данных не попадет во временной шаг.

Агрегация с выравниванием в начальное время набора данных

Есть несколько моментов, которые важно учитывать. Со значением Начальное время для Выравнивания временного шага на основе выбранного Интервала временного шага возможно создать временной шаг на конце куба пространства-времени, в котором отсутствуют данные за весь период времени. В примере выше можно увидеть, что значения 9/13 и 9/14 включаются в последний временной шаг, даже если до значения 9/12 данные отсутствуют. Эти пустые дни являются частью временного шага, но не содержат связанных с ним данных. Это может отразиться на результатах, поскольку этот временный интервал будет содержать значительно меньшее число точек, чем другие, что является следствием схемы агрегации. В отчете показано, имеется ли временной сдвиг в первом или последнем интервале. В этом случае, два из трех дней последнего шага не имеют данных, поэтому временной сдвиг будет равен 66%. Это особенно проблематично при выборе Начального времени Выравнивания временного шага, поскольку это может негативно повлиять на анализ самых последних данных. В качестве решения можно предложить разбиение данных на равные интервалы с помощью Интервала временного шага, чтобы ни один из периодов не подвергался сдвигу. Это можно сделать, создав выборку данных и убрав часть набора точечных данных, выходящую за пределы временного периода, которым вы бы хотели закончить. В этом примере выбор всех данных, кроме тех, которые имеют дату 9/12 и следующие за ней, решит проблему. Вы можете также удалить 2 дня от начала набора данных, что может также привести к тому, что данные попадут ровно во временные шаги. В отчете показан промежуток времени от первого и до последнего шагов, эта информация может быть использована для определения данных, которые следует убрать.

Также важно заметить, что если в процессе перемещения вперед во времени последний шаг точно совпал на конце с последней точкой данных, эта последняя точка данных не включается в данный бин. Это происходит потому, что со значением Начальное время для Выравнивания временного шага каждый бин включает в себя первую дату, затем движется вперед, но не включает в себя последнюю дату этого бина. В этом случае следует добавить дополнительный бин, чтобы включить и последнюю точку данных.

Базовое время

Значение Базовое время для Выравнивания временного шага позволяет гарантировать, что начало или окончание одного из временных шагов в кубе помечено определенной датой.

Когда вы выбираете Базовое время, которое выходит за пределы экстента набора данных, в последней точке данных или в середине набора данных, оно будет считаться как последняя точка данных временного шага, а все остальные бины с обоих сторон будут создаваться с использованием Выравнивания временного шага до тех пор, пока не будут охвачены все данные, как показано ниже.

Использование базового времени с выравниванием конечного времени

Когда вы выбираете Базовое время, которое попадает во временной интервал перед экстентом набора данных или в первой точке данных, оно будет обрабатываться как первая точка данных временного шага, а все остальные временные шаги с обоих сторон будут создаваться с использованием значения Начальное время для Выравнивания временного шага до тех пор, пока не будут охвачены все данные, как показано ниже.

Использование базового времени с выравниванием начального времени

Выбор Базового времени до или после экстента данных может привести к созданию пустых или частично пустых бинов, что повлияет на результаты анализа.

Шаблоны кубов для куба сетки

Примечание:

Шаблон куба не используется для кубов из указанных местоположений. Они применяются только для кубов сетки.

Использование Шаблона куба позволяет применять непрерывный пространственный экстент и Интервал временного шага при анализе различных наборов данных. Например, при поступлении данных за текущий год можно использовать куб Пространство-Время за прошлый год в качестве Шаблона куба, это позволит сохранить имеющийся пространственный экстент и выбранный Интервал временного шага, при этом давая возможность расширить куб для охвата новых данных. Также можно применить куб Пространство-Время для инцидентов одного типа в качестве шаблона куба для анализа инцидентов другого типа, что гарантирует возможность сравнения результатов.

Выбор значения Шаблона куба влияет на опцию Выравнивание временного шага. Когда вы выбираете Шаблон куба, который находится до или после промежутка времени Входных объектов, временные интервалы будут добавляться, пока все данные не окажутся в пределах промежутка времени, это делается с использованием Выравнивания временного шага для шаблона куба. Получившийся куб пространства-времени будет содержать пустые кубы в тех местах, где значение шаблона куба не пересекается во времени с Входными объектами. Это влияет на результаты анализа. Если шаблон куба накладывается на входные объекты, получившийся куб Пространство-время будет охватывать временной экстент шаблона куба и распространится до тех пор, пока не будут покрыты все входные объекты с помощью выравнивания временного шага шаблона куба. На рисунке ниже представлены шаблоны куба (голубым цветом) и результирующий куб пространство-время (оранжевый).

Примеры шаблонов куба

Важно знать, что при создании нового куба Пространство-Время с использованием Шаблона куба временной экстент шаблона куба будет продолжаться до покрытия всех данных. Это позволяет использовать куб прошлого года для создания нового куба, содержащего данные прошлого и текущего годов. Пространственный экстент шаблона куба обрабатывается по-разному. Любые данные, находящиеся вне пространственного экстента шаблона куба, будут исключены из анализа. Шаблон куба и полученный куб Пространство-Время будут обладать одинаковым пространственным экстентом. Единственное возможное изменение пространственного экстента может произойти там, где местоположения, которые ранее не имели данных, могут стать местоположениями с данными, если появились новые объекты, отсутствующие в момент создания шаблона куба.

Атрибуты

Агрегация точек

При создании куба по агрегации точек, как для куба сетки, так и для куба из указанных местоположений, всегда вычисляется COUNT точек в каждом бине. В дополнении к полю COUNT, вы также можете вычислить суммарные атрибуты в пределах каждого бина. Могут быть заданы различные комбинации статистических показателей и полей. Пустые значения не включаются в расчет статистики. При выборе Полей суммирования, каждое местоположение должно иметь значение для каждого атрибута в каждом временном шаге. Вы можете выбрать, каким образом инструмент будет заполнять пустые бины (бины без точек, и, соответственно, без атрибутов) с помощью параметра Заполнить пустые бины с. Доступно несколько опций и вы можете выбрать различные типы заполнения для каждого суммируемого поля. Если какие-либо бины которые не могут быть заполнены на основе оценочного критерия, это приведет к тому, что все местоположение будет исключено из анализа. Для заполнения пустого бина необходимо минимум 4 соседа, для которых будет вычислено среднее значение на основе пространственного соседства, и минимум 13 соседей необходимо для заполнения пустого бина при помощи вычисления среднего значения на основе пространственно-временного соседства.

Указанные местоположения

При создании куба из указанных местоположений без агрегации времени, вы выбираете переменные из ваших данных, которые хотите включить в куб, и наиболее подходящую опцию Заполнить пустые бины с, если у вас есть пустые значения или пропущены объекты в конкретном временном периоде в данных, и вы не хотите пропускать эти местоположения в анализе.

При создании куба из указанных местоположений с агрегацией времени, вы должны выбрать Поля суммирования, которые вы хотите включить в результирующий куб, и тип Статистики, который будет использован при суммировании. Так как каждое местоположение должно иметь значение в каждом временном шаге, в дополнении к выбору типа Статистики вы должны также выбрать, каким образом будут заполнены временные ряды, с помощью параметра Заполнить пустые бины с. Доступно несколько опций и вы можете выбрать различные типы заполнения для каждого суммируемого поля.

Типы статистики (кубы указанных местоположений и агрегации точек)

Доступны следующие типы статистики:

  • SUM – вычисляет суммарное значение указанного поля в каждом бине
  • MEAN – вычисляет среднее значение для указанного поля в каждом бине
  • MIN – находит наименьшее значение для всех записей заданного поля в каждом бине
  • MAX – находит наибольшее значение для всех записей заданного поля в каждом бине
  • STD – вычисляет значение среднеквадратичного отклонения для значений данного поля в каждом бине
  • MEDIAN – находит отсортированное среднее значение всех записей заданного поля в каждом бине

Внимание:

Значения Null, имеющиеся в любых суммируемых полях, приведут к исключению таких объектов из анализа. Если вычисление числа точек в каждом бине является частью вашей стратегии анализа, можно рассмотреть возможность создания отдельных кубов, по одному для каждого числа точек (без Полей суммирования) и одному для Полей суммирования. Если набор пустых значений отличается в каждом поле суммирования, также можно рассмотреть возможность создания отдельного куба для каждого поля.

Заполнить пустые бины с (для всех кубов)

Доступны следующие типы заполнения:

  • Нули – заполняет пустые бины нулями.
  • Пространственная окрестность – заполняет пустые бины средними значениями пространственных окрестностей
  • Пространственно-временная окрестность – заполняет пустые бины средними значениями пространственно-временных окрестностей
  • Временной тренд – заполняет пустые бины, используя алгоритм одномерного интерполированного сплайна.

Дополнительно, при использовании инструмента Создать куб Пространство-Время из указанных местоположений, есть опция Сброс местоположений, которые содержат не завершенные временные ряды, до того, как они будут заполнены с применением одной из перечисленных выше опций.

Интерпретация результатов

Сообщения

В дополнение к файлу netCDF отображаются сообщения, суммирующие измерения и содержимое куба Пространство-Время, они появляются во время выполнения инструмента в нижней части панели Геообработка. Чтобы получить доступ к сообщениям, поместите курсор мыши над индикатором выполнения и щелкните всплывающую кнопку Открыть всплывающее окно, или разверните раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента через историю геообработки.

Для кубов сетки в анализ будут включаться только местоположения с данными хотя бы для одного временного шага, при этом анализ будет проводиться для всех временных шагов. При подсчете количества точек в кубе сетки, нулевое количество будет присвоено бину, не содержащему ни одной точки, если в соответствующем местоположении хотя бы один временной шаг будет содержать хотя бы одну точку. Информация о проценте бинов с нулевым количеством, связанных с местоположениями, для которых есть данные хотя бы для одного временного шага, будет отражена в сообщении, как величина разреженности.

Для указанных местоположений, любое местоположение с завершенным временным рядом включается в указанные местоположения для куба, даже если временной ряд состоит из одних нулей. Очень важно решить, будете ли вы агрегировать точки в указанных местоположениях.

В конце выходного сообщения находится информация об общем тренде данных. Тренд вычисляется на основе анализа временных рядов в пространстве. Основной вопрос, на который отвечает анализ – число событий, которые представлены входными данными, увеличивается или уменьшаются с течением времени? Чтобы ответить на этот вопрос, все местоположения в каждом пространственно-временном интервале анализируются совместно в виде временного ряда с использованием статистики Манна-Кенделла.

Анализ тренда

Анализ тренда по алгоритму Манна-Кендалла выполняется для каждого местоположения с данными как независимый анализ бинов временного ряда. Статистика Манна-Кендалла подразумевает ранговый корреляционный анализ количества точек или значений и их временных периодов. Значение бина первого интервала сравнивается со значением бина в следующем. Если первое значение было меньше второго – результат равен +1. Если первое значение было больше второго – результат равен -1. Если два значения совпадают – результат равен 0. Результаты каждой пары временных периодов сравниваются и суммируются. Ожидаемое значение суммы равно 0 и свидетельствует об отсутствии тренда в значениях во времени. На основе вариации значений во временных рядах бинов, количества совпадений и общего числа временных периодов общая сумма сравнивается с ожидаемой суммой (S=0, нулевая гипотеза) для оценки того, статистически значима ли разница. Тренд для каждого временного ряда бинов определяется оценкой z и значением P. Малое значение P свидетельствуют о наличии статистически значимого тренда. Величина z-оценки показывает, свидетельствует ли тренд о возрастании значений в бинах (положительное значение z-оценки) или их убывании (отрицательное значение z-оценки). Дальнейшие шаги для визуализации результирующих трендов описаны в разделе Визуализация куба Пространство-Время.

Структура куба Пространство-Время

Визуализация

Вы можете визуализироватькуб пространства-времени, как в 2D, так и в 3D, с помощью инструментов группы Утилиты, или загрузив Space Time Cube Explorer. Space Time Cube Explorer был разработан для того, чтобы быстро визуализировать в трехмерной среде результаты Углубленного анализа пространственно-временных закономерностей. Эта надстройка использует ваш куб Пространство-Время в качестве входных данных и создает слои, которые можно визуализировать разными способами. Доступно несколько опций отображения, с предустановленными символами, а также бегунки диапазона и времени, которые позволяют максимально эффективно выполнить исследование куба пространство-время и результатов анализа. Вы можете скачать эту настройку со страницы www.esriurl.com/SpaceTimeCubeExplorer. Трехмерные визуализации куба пространство-время также могут отображаться как веб-сцены и публиковаться на картах-историях.

Дополнительные ресурсы

Для создания, визуализации и анализа куба Пространство-Время необходимо наличие программного обеспечения netCDF, которое предоставляется UCAR/Unidata. Подробнее о Unidata и проекте Network Common Data Form (NetCDF).

Для информации об оптимизации гистограммы по ширине бина см.:

  • Shimazaki H. and S. Shinomoto, "A method for selecting the bin size of a time histogram," Neural Computation Vol. 19(6), (2007): 1503–1527.
  • Terrell, G. and D. Scott, "Oversmoothed Nonparametric Density Estimates," Journal of the American Statistical Association Vol. 80(389), (1985): 209-214.
  • Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Project leader: David M. Lane, Rice University (chapter 2, "Graphing Distributions, Histograms").

Информацию методе расчета тренда по Манну-Кендаллу см.:

  • Hamed, K. H., "Exact distribution of the Mann-Kendall trend test statistic for persistent data," Journal of Hydrology (2009): 86-94.
  • Kendall, M. G. and J. D. Gibbons, Rank correlation methods, fifth ed., (1990) Griffin, London.
  • Mann, H. B., "Nonparametric tests against trend," Econometrica Vol. 13, (1945): 245–259.