В результате работы инструмента Географически взвешенная регрессия (ГВР) (Geographically Weighted Regression) вы получите следующие данные:
- Выходной класс объектов
- Дополнительный коэффициент растровых поверхностей
- Окно сообщения с отчетом о результатах моделирования
- Дополнительная таблица, показывающая переменные и результаты диагностики
- Предсказание выходного класса объектов
Для каждого из перечисленных типов выходных данных ниже представлены иллюстрации и описание действий от запуска ГВР до интерпретации результатов ее работы. Регрессионный анализ всегда следует начинать с регрессии по методу Наименьших квадратов (МНК). Более подробную информацию см. в разделе Основы регрессионного анализа и Интерпретация результатов регрессии по МНК. Обычно работа с регрессионным анализом заключается в идентификации наилучшей модели МНК до того, как перейти к ГВР. Ниже приведены пошаговые инструкции этого процесса.
(A) При необходимости откройте окно Результаты. После того, как вы определите один или несколько кандидатов в качестве модели регрессии с помощь инструмента МНК, запустите эти модели с помощью ГВР. Исключите из модели ГВР любые региональные бинарные переменные, поскольку они могут вызвать проблемы с локальной мультиколлинеарностью и которые не нужны для ГВР. Вам потребуется ввести Входной класс объектов с Зависимой переменной (Dependent variable), которую необходимо смоделировать или предсказать/объяснить с помощью модели, а также все Независимые переменные (Explanatory variables). Также необходимо указать путь для Выходного класса объектов, Тип керн-функции (фиксированная или адаптивная), а также Метод задания ширины полосы (AIC, CV или пользовательское значение). Если для Метода задания ширины полосы выбрано BANDWIDTH_PARAMETER, необходимо также указать Расстояние (для фиксированной керн-функции) или Количество соседей (для адаптивной керн-функции). Также можно задать дополнительные параметры, описанные в Документации к инструменту ГВР. Особенно интересным дополнительным параметром является Рабочая область растров коэффициентов (Coefficient raster workspace). При задании пути к папке для этого параметра, инструмент ГВР создаст поверхности растров коэффициентов (см. ниже) для каждой цены деления модели и каждой независимой переменной.
(B) Просмотрите итоговый статистический отчет в окне Результаты. Если щелкнуть правой кнопкой мыши запись Сообщения в окне Результаты и выбрать Вид, итоговый отчет ГВР можно будет просмотреть в диалоговом окне Сообщение. Если инструмент будет работать на переднем плане, итоговый отчет также будет показан в диалоговом окне работы инструмента. Каждый из элементов диагностики в отчете описан ниже.
- Ширина полосы или соседи – это параметры Ширина полосы или Количество соседей, которые используются для каждой локальной оценки и, возможно, являются наиболее важными параметрами для ГВР. Они контролируют уровень сглаженности модели. Как правило программа выбирает тот или другой параметр, исходя из того, какое значение задано для параметра Метод задания ширины полосы, Скорректированный информационный критерий Акаике или Перекрестная проверка. Обе эти опции пытаются идентифицировать оптимальную фиксированную дистанцию или оптимальное адаптивное число соседей. Поскольку критерии оптимальности для AIC и CV различаются, обычно выбирается другое оптимальное значение. Кроме того, можно задать точное фиксированное расстояние или количество соседей, выбрав значение Как определено ниже для Метода задания ширины полосыКроме того, можно задать точное фиксированное расстояние или количество соседей, выбрав значение BANDWIDTH_PARAMETER для Метода задания ширины полосы
Единицы измерения ширины полосы определяются параметром Тип ядра. Если выбрано FIXED, ширина полосы будет измеряться в тех же единицах, которые используются во Входном классе объектов (например, если класс объектов спроецирован в системе координат UTM, расстояния будут измерены в метрах). Если выбрано ADAPTIVE, расстояние ширины полосы будет изменяться в зависимости от пространственной плотности объектов во Входном классе объектов. Ширина полосы становится функцией от количества ближайших соседей, т.е. каждая локальная оценка базируется на одинаковом количестве объектов. Вместо указанного расстояния показывается число соседей, которые были использованы для анализа.
- ResidualSquares – это сумма квадратов ошибок в модели (ошибки – это разница между измеренным значением y и его предсказанным значением в модели ГВР). Чем меньше это значение, тем больше модель ГВР похожа на данные реального мира. Это значение используется в некоторых других диагностических измерениях.
- EffectiveNumber – это значение, отражающее компромисс между дисперсией подходящих значений и смещением в оценках коэффициентов и связанное с выбранной шириной полосы. Поскольку ширина полосы стремится к бесконечности, географические веса для каждого измерения стремятся к 1, а оценки коэффициента будут очень близки к глобальной модели МНК. Для очень большой ширины полосы эффективное количество коэффициентов стремится к реальному количеству, локальные оценки коэффициента будут иметь небольшую дисперсию, но при этом будут смещены. Напротив, если ширина полосы стремится к нулю, географические веса для каждого наблюдения стремятся к нулю, за исключением самой точки регрессии. Для очень маленькой ширины полосы эффективное количество коэффициентов равно число наблюдений, а локальные оценки будут иметь большую дисперсию, но меньшее смещение. Эффективное число используется для вычисления числа диагностических измерений.
- Sigma – это значение является квадратным корнем из нормированной суммы невязок квадратов, деленной на эффективные степени свободы невязки. Это оцененное стандартное отклонение для невязок. Предпочтительно иметь небольшие значения этой величины. Параметр используется для вычисления AICc.
- AICc – это измерение производительности модели, которое используется при сравнении различных моделей регрессии. Учитывая сложность модели, модель с более низким значением AICc больше соответствует реальным данным. AICc не является абсолютным измерением пригодности модели, но полезно для сравнения модели с различными независимыми переменными, которые применяются к одной зависимой переменной. Если значения AICc для двух моделей отличаются более, чем на 3, то модель с меньшим значением AICc, скорее всего, лучше. Сравнение значений AICc для ГВР и МНК является одним из вариантов оценки преимуществ перехода от глобальной модели (МНК) к локальной модели регрессии (ГВР).
- R2 – R-квадрат показывает, насколько модель соответствует действительности. Его значение изменяется от 0.0 до 1.0, чем больше значение, тем лучше. Его можно интерпретировать как долю дисперсии зависимой переменной, которая объясняется моделью регрессии. Знаменателем при вычислении R2 является сумма квадратов значений зависимых переменных. При добавлении каждой независимой переменной знаменатель модели не будет меняться, однако числитель будет меняться, создавая ошибочное впечатление, что модель близка к действительности. См. параметр Adjusted R2 ниже.
- R2Adjusted – в свете описанных выше проблем вычисление скорректированного значения R-квадрата нормирует числитель и знаменатель по их степеням свободы. При этом компенсируется число переменных в модели, и, следовательно, значение Adjusted R2 всегда меньше, нежели значение просто R2. Однако при такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. В ГВР эффективное число степеней свободы является функцией от ширины полосы, поэтому корректировка может быть более заметна в глобальной модели, например, МНК. По этой причине желательно использовать значения AICc при сравнении моделей.
Диагностика из окна сообщений записывается в дополнительную таблицу (_supp), наряду с итоговой информацией о переменных и параметрах модели.
(C) Изучите невязку для выходного класса объектов.
Переоценка и недооценка для хорошо определенной модели регрессии будут распределены случайно. Кластеризация переоценок и/или недооценок является доказательством того, что потеряна как минимум одна независимая переменная. Просмотрите рисунок невязок моделей МНК и ГВР, по нему можно увидеть, какие переменные могли быть утеряны. Запустите инструмент Пространственная автокорреляция (Индекс I Морана) для невязок регрессии, чтобы убедиться, что они пространственно случайны. Статистически значимая кластеризация для высокой и/или низкой невязки (недооценки или переоценки модели) показывает, что модель ГВР не определена.
Помимо невязок регрессии Выходной класс объектов включает поля для измеренных и предсказанных значений y, число обусловленности (cond), параметр Local R2, коэффициенты независимых переменных и стандартные ошибки:
- Condition Number (Число обусловленности) – это диагностика для оценки локальной мультиколлинеарности. При наличии сильной локальной мультиколлинеарности, результаты неустойчивы. Результаты, для которых число обусловленности превышает 30, могут быть ненадежными.
- Local R2 – это параметр, значения которого находятся в диапазоне от 0,0 до 1,0 и показывают, насколько точно локальная модель регрессии соответствует реально измеренным величинам y. Слишком низкие значения показывают, что локальная модель работает не очень хорошо. Заполнение значений Local R2 для того, чтобы увидеть, где находятся хорошие прогнозы ГВР, а где не очень, может помочь в выявлении важных утерянных переменных в модели регрессии.
- Predicted (Проинтерполированное значение) – это оценка y, вычисленная с помощью ГВР.
- Residuals (Невязки) – для определения значений невязок подходящие значения y вычитаются из измеренных значений y. Нормализованные невязки имеют среднее, равное 0 и стандартное отклонение, равное 1. Карта с их отображением автоматически добавляется в таблицу содержания ArcMap после запуска инструмента ГВР.
- Coefficient Standard Error (Коэффициент стандартной ошибки) – эти значения измеряют надежность каждой оценки коэффициента. Доверие к ним тем выше, чем меньше стандартные ошибки по отношению к действительным значениям коэффициента. Большие стандартные ошибки могут говорить о проблемах с локальной многоколлинеарностью.
(D) Исследуйте коэффициенты модели растровых поверхностей, созданных с помощью ГВР (и/или с полигональными данными, отображением коэффициентов уровня объектов в виде градуированных цветов) для лучшего понимания региональных особенностей в независимых переменных модели. В случаях, когда вы используете ГВР для моделирования некоторой переменной (зависимой), вы главным образом заинтересованы в предсказании значений или объяснении факторов, влияющих на распределение зависимой переменной. Кроме того, можно оценить то, как пространственные постоянные отношения между зависимой переменной и каждой независимой переменной проявляют себя на исследуемой территории. Исследование коэффициента распределения как поверхности показывает, где и насколько сильно проявляется разнообразие. Вы можете использовать это для обоснования следующего:
- Статистически значимые глобальные переменные, которые представляют небольшое региональное разнообразие, говорят об общем региональном принципе.
- Статистически значимые глобальные переменные, которые представляют сильное региональное разнообразие, говорят о локальном принципе.
- Некоторые переменные могут не являться глобально значимыми: в некоторых областях они оказывают положительное влияние, в некоторых – отрицательное.
(E) Нанесите на карты интерполяции ГВР. ГВР может быть использована для прогноза, если применить ее к данным выборки. Укажите класс объектов, содержащий независимые переменные для участков, где зависимая переменная неизвестна. ГВР откалибрует уравнение регрессии с использованием известных значений зависимой переменной из Входного класса объектов, в результате чего будет создан Выходной класс объектов с оценочными значениями зависимой переменной.