Результатами работы инструмента Метод наименьших квадратов являются:
- Выходной класс объектов
- Сообщение с отчетом о статистических ошибках
- Дополнительный файл отчета
- Дополнительно – пояснительная таблица для коэффициентов переменных
- Дополнительно – таблица диагностики регрессии
Ниже представлено отображение и описание каждого из этих элементов в виде серии шагов от запуска МНК до интерпретации результатов его работы.
(A) Чтобы запустить инструмент МНК, укажите входной класс объектов с полем уникального ID, зависимую переменную, которую требуется смоделировать/объяснить/спрогнозировать, и список независимые значения. Кроме того, нужно будет указать путь к выходному классу объектов и, если это необходимо, пути к выходному файлу отчета, выходной таблице коэффициентов и выходной таблице диагностики.
После запуска ГВР прежде всего вам захочется увидеть отчет ГВР, записанный в виде сообщений во время выполнения инструмента в файл, хранящийся по указанному вами в параметре Выходной файл отчета пути.
(B) Просмотрите сводный отчет, используя приведенные ниже инструкции:
Разделы статистического отчета
- Оценка производительности модели. Оба значения Multiple R-Squared и Adjusted R-Squared являются показателями производительности модели. Возможные значения варьируются от 0.0 до 1.0. Значение Adjusted R-Squared всегда несколько ниже, нежели Multiple R-Squared, поскольку отражает сложность модели (количество переменных), что, в свою очередь, связано с целостностью данных, поэтому гораздо точнее отражает производительность модели. Добавление дополнительных независимых переменных в модель, как правило, повышает значение Multiple R-Squared, но понижает при этом значение Adjusted R-Squared. Предположим, вы создаете регрессионную модель домовых краж (количество домовых краж по каждому кварталу является зависимой переменной, y). Значение Adjusted R-Squared, равное 0,39 показывает, что ваша модель (или независимые переменные, cмоделированные с использованием линейной регрессии) объясняет порядка 39 процентов случаев поведения зависимой переменной. Иными словами, ваша модель описывает около 39% домовых краж.
- Оценка каждой независимой переменной в модели: Coefficient (коэффициент), Probability (Вероятность) или Robust Probability (Устойчивая вероятность) и Variance Inflation Factor (VIF) (Фактор, увеличивающий дисперсию). Коэффициент для каждой независимой переменной отражает силу и тип отношений между независимой и зависимой переменной. Если коэффициент отрицательный, отношения являются "негативными" (например, чем больше расстояние от центра города, тем меньше количество домовых краж). Если значение положительно, связь между показателями прямая (например, чем больше население, тем больше количество домовых краж). Коэффициенты приводятся в тех же единицах, что и связанные с ними независимые переменные (коэффициент 0.005 связан с переменной, представляющей численность населения, которую можно указать как 0.005 человек). Коэффициент отражает ожидаемое изменение в зависимой переменной для каждого изменения в связанной независимой переменной, хранящей все остальные константы переменных (например, при добавлении очередного жильца в квартал (который "хранит" все остальные независимые переменные), ожидается повышение значения домовых краж на 0,005). Тест T используется для проведения оценки того, являются ли независимые переменные значимыми. Нулевая гипотеза означает, что для всех случаев коэффициент близок к нулю (и, соответственно, не подходит для моделирования). В случаях, когда вероятность или устойчивая вероятность (p-значения) являются очень маленькими, шанс того, что коэффициент равен нулю, также невелик. Если тест Koenker (см. ниже) является статистически значимым, используйте значения устойчивой вероятности для оценки статистической значимости независимых переменных. Статистические значимости вероятности помечены звездочкой (*). Независимая переменная, связанная со статистически значимым коэффициентом, важна для модели регрессии, если теоретическое/часто встречаемое значение поддерживает корректное отношение с зависимой переменной, если моделируемое отношение является, в основном, линейным и если переменная не является избыточной для всех остальных независимых переменных в модели. Фактор, увеличивающий дисперсию (VIF), измеряет избыточность среди независимых переменных. По опыту, независимые переменные, связанные со значениями фактора VIF, больше, чем 7,5 должны быть удалены (по одному) из модели регрессии. Если, например, в модели имеется переменная населения (количество человек) и переменная трудящихся (количество работающих человек), явную связь между ними можно найти по высокому значению VIF, увеличивающего дисперсию, который показывает, что обе переменных говорят об одном и том же, следовательно, одну из них из модели можно удалить.
- Оценка значимости модели. Показатели Соединенная F-статистика (Joint F-Statistic) и Соединенная статистика Вальда (Joint Wald Statistic) отвечают за общую статистическую значимость модели. Joint F-Statistic является надежным только в том случае, когда показатель Koenker (BP) statistic (см. ниже) не является статистически значимым. В противном случае желательно проанализировать Joint Wald Statistic, чтобы определить общую значимость модели. Нулевая гипотеза для обоих тестов подразумевает, что независимые переменные в модели являются неэффективными. Для уровня надежности в 95%, a p-значение (вероятность) менее 0.05 показывает статистическую значимость модели.
- Оценка стационарности. Статистика Кенкера (BP) (Koenker (BP) Statistic) (стьюдентизированная Кенкером статистика Бреуша-Пагана) – это тест на определение того, имеют ли независимые переменные в модели постоянную связь с зависимой переменной как в географическом пространстве, так и в пространстве данных. Если модель согласована в географическом пространстве, то процессы, представленные независимыми переменными, ведут себя одинаково по всей области исследования (являются стационарными). Если модель согласована в пространстве данных, то разница в отношениях между предсказанными значениями и каждой независимой переменной не меняется при изменении самой переменной (в модели нет гетероскедастичности). Предположим, вы хотите предсказать преступление, и на входе у вас есть одна независимая переменная. У модели будет сомнительная гетероскедастичность, если предсказания были более точными для участков с низкими значениями медианы, нежели для участков с большим значением. Нулевая гипотеза для этого теста заключается в том, что модель является стационарной. Для 95% уровня надежности p-значение (вероятность) менее 0.05 означает статистически значимую гетероскедастичность и/или нестационарность. В случае, когда результаты теста являются статистически значимыми, проанализируйте стандартные ошибки и вероятности коэффициента надежности для оценки эффективности каждой независимой переменной. Регрессионные модели со статистически значимой нестационарностью зачастую являются отличными данными для анализа Географически взвешенной регрессии (ГВР).
- Оценка смещения модели. Статистика Жака-Бера (Jarque-Bera) показывает, являются ли невязки (полученные/известные зависимые переменные минус предсказанные/ожидаемые значения) нормально распределенными. Нулевая гипотеза для данного теста заключается в том, что невязки распределены нормально, поэтому, если вы построите для них гистограмму, она будет выглядеть как классическая колоколообразная кривая или Гауссово распределение. Когда p-значение (вероятность) для этого теста мала (например, менее 0.05 для 95% уровня надежности), невязки не распределены нормально, это значит, что модель смещена. Если у вас есть статистически значимая пространственная автокорреляция невязок (см. ниже), смещение может быть результатом ошибок спецификации модели (потеря ключевой переменной в модели). Результаты такой модели являются ненадежными. Статистически значимый тест Жака-Бера также может возникнуть, если вы пытаетесь смоделировать нелинейные отношения, а данные содержат значительные выбросы или сильно зависимы дисперсии от случайной величины.
- Оценка пространственной автокорреляции невязок. Всегда запускайте инструмент Пространственная автокорреляция (Индекс Морана I) для невязок регрессии, чтобы убедиться, что они пространственно случайны. Статистически значимая кластеризация высоких и/или низких невязок (пере- или недооценка модели) показывает, что в модели потеряна ключевая переменная (ошибка спецификации). Результаты МНК не могут быть достоверными в таком случае.
- Наконец, обратитесь к разделу Почему не работает модель регрессии в документации Основы регрессионного анализа, чтобы убедиться, что ваша модель настроена соответствующим образом. Если возникают трудности при поиске правильной модели регрессии, инструмент Исследовательская регрессия (Exploratory Regression) может оказаться полезным. Замечания по интерпретации в конце сводного отчета OLS напоминают о цели каждого статистического теста и помогают найти решения, если ваша модель не проходит один или несколько диагностических проверок.
(C) Если вы указали путь к дополнительному выходному файлу отчета, создается PDF-файл со всей информацией в сводном отчете и дополнительными графиками, позволяющими оценить вашу модель. На первой странице отчета представлены сведения о каждой независимой переменной. Как и в первом разделе сводного отчета (см. пункт 2 выше), вы используете эту информацию, чтобы определить, являются ли коэффициенты для каждой независимой переменной статистически значимыми и содержат ли ожидаемый знак (+/-). Если критерий Кенкера статистически значимый (см. пункт 4 выше), то можно доверять только устойчивым вероятностям, чтобы оценить, помогает ли переменная вашей модели или нет. Статистически значимые коэффициенты содержат знак звездочки (*) рядом со своими p-значениями для вероятностей и/или столбцов устойчивой вероятности. По информации на этой странице также можно определить, являются ли независимые переменные избыточными (проблемная мультиколлинеарность). Если теория не говорит иное, независимые переменные с большими значениями Фактора увеличения дисперсии (VIF) следует удалить по одной, пока значения VIF для всех оставшихся независимых переменных не будут меньше 7,5.
В следующей разделе выходного файла отчета перечисляются результаты диагностических проверок OLS. На этой странице также представлены замечания по интерпретации, описывающие необходимость каждой проверки. Если ваша модель не проходит одну из этих проверок, в таблице типичных проблем с регрессией можно найти серьезность каждой проблемы и возможный путь ее устранения. Графики на остальных страницах отчета также помогают вам выявить и устранить проблемы с моделью.
В третьем разделе выходного файла отчета представлены гистограммы с распределением каждой переменной в модели, а также диаграммы рассеивания, показывающие отношения зависимой и независимой переменной. Если у вас возникают проблемы со смещением модели (это обозначается статистически значимым p-значением Жака-Бера), найдите в гистограммах распределения с асимметрией и попробуйте преобразовать эти переменные, чтобы увидеть, устраняет ли это смещение и улучшается ли производительность модели. Диаграммы рассеивания показывают, какие переменные являются лучшими предикторами. Используйте эти диаграммы рассеивания, чтобы проверить переменные на наличие нелинейных отношений. В некоторых случаях преобразование одной или нескольких переменных устраняет нелинейные отношения и смещение модели. Выбросы в данных также могут привести к получению смещенной модели. Проверьте гистограммы и диаграммы рассеивания на наличие таких данных или отношений. Попробуйте запустить модель с выбросами и без них, чтобы оценить, как они влияют на результаты. Вы можете обнаружить, что выброс – это некорректные данные (введенные или записанные с ошибкой) и сможете удалить связанный объект из набора данных. Если выброс отражает корректные данные и сильно влияет на результаты анализа, можно провести ваш анализ с выбросами и без них.
После получения правильно настроенной модели переоценки и недооценки будут отражать случайный шум. Если вам нужно создать гистограмму случайного шума, обычно это кривая с нормальным распределением (в виде колокола). Четвертый раздел выходного файла отчета представляет гистограмму переоценок и недооценок модели. Полосы на гистограмме отображают фактическое распределение, а синяя линия сверху диаграммы показывает форму, которую бы приняла гистограмма, если остатки имели нормальное распределение. Вряд ли вы получите идеальные результаты, поэтому следует проверить тест Жака-Бера, чтобы определить, является ли отклонение от нормального распределение статистически значимым или нет.
Диагностика Кенкера позволяет определить, меняются ли моделируемые отношения в изучаемой области (нестационарность) или зависят от величины переменной, которую вы пытаетесь предсказать (зависимость дисперсии от случайной величины). Географически взвешенная регрессия позволяет устранить проблемы с нестационарностью. На графике в разделе 5 файла выходного отчета будет показано, имеется ли проблема с зависимостью дисперсии от случайной величины. На диаграмме рассеивания (см. ниже) показано отношение остаточных и прогнозируемых значений модели. Предположим, вы моделируете частоту преступлений. Если на графике показана коническая форма с точкой слева и расширением справа от графика, это указывает на то, что ваша модель хорошо прогнозирует расположения с низкой частотой преступлений, и плохо прогнозирует расположения с высокой частотой преступлений.
На последней странице отчета показаны все настройки параметров, использованные при создании отчета.
(D) Изучите невязки модели в выходном классе объектов. Пере- и недооценки для правильно настроенной модели регрессии будут распределены случайно. Кластеризация переоценок и/или недооценок является доказательством того, что потеряна как минимум одна независимая переменная. Проверьте "рисунок" невязок модели, чтобы посмотреть, не говорит ли он о том, какие переменные могли быть утеряны. Иногда запуск инструмента Анализ горячих точек (Hot Spot Analysis) для нее может помочь определить более общие закономерности. Дополнительные стратегии для обработки неправильно определенной модели см. в разделе Что вам не говорят о регрессионном анализе.
(E) Просмотрите таблицы коэффициентов и диагностики. Создавать их необязательно. Если вы находитесь в процессе поиска эффективной модели, можно обойтись без них. Но этот процесс итеративен, поэтому может быть перепробовано огромное количество моделей (с разными независимыми переменными) до тех пор, пока не будет найдена лучшая. Вы можете использовать Скорректированный информационный критерий Акаике (Corrected Akaike Information Criterion (AICc)) в отчете, чтобы сравнить модели между собой. Модель с меньшим значением AICc лучше (то есть, наиболее точно отражает данные наблюдений).
Создание таблиц коэффициентов и диагностики для ваших итоговых моделей OLS позволяет фиксировать важные элементы отчета OLS. Таблица коэффициентов содержит список использованных в модели независимых переменных с их коэффициентами, стандартизированными коэффициентами, стандартными ошибками и вероятностями. Коэффициент представляет собой оценку того, насколько изменится зависимая переменная при изменении связанной с ней независимой переменной на 1 единицу. Единицы коэффициентов соответствуют независимым переменным. Если, например, у вас есть независимая переменная для общего количества населения, то и единица коэффициента для этой переменной будет отражать население; если другая независимая переменная будет для расстояния (в метрах) от железнодорожной станции, то единицы такого коэффициента будут отражать метры. Если эти коэффициенты конвертировать в среднеквадратические отклонения, то они будут называться стандартизированными коэффициентами. Стандартизированные коэффициенты могут использоваться для того, чтобы можно было сравнить силу влияния, которое имеют другие независимые переменные на зависимую переменную. Независимая переменная с наибольшим абсолютным значением стандартизированного коэффициента (т.е. после того, как вы отбросите знаки +/-) будет иметь наибольшую силу влияния на зависимую переменную. Следует иметь ввиду, что при интерпретации коэффициентов необходимо принимать в расчет стандартную ошибку. Стандартные ошибки указывают, насколько вероятно получить такие же коэффициенты при повторном отборе данных и перекалибровке модели множество раз. Большие значения стандартных ошибок для коэффициента означают, что в процессе повторов будет получен широкий диапазон возможных значений коэффициента; малые значения стандартных ошибок явно говорят о его постоянстве.
Таблица диагностики содержит результаты для каждого теста, а также пояснения по интерпретации этих результатов.
Дополнительные ресурсы
Существует целый ряд хороших ресурсов, которые помогут вам узнать больше о регрессии OLS на странице Ресурсы о пространственной статистике. Начните с чтения документации по Основы регрессионного анализа или просмотрите бесплатный одночасовой веб-семинар Esri Virtual Campus по Основы регрессионного анализа. Затем поработайте с обучающим руководством по Регрессионный анализ. Примените регрессионный анализ к собственным данным, изучите таблицу типичных проблем и статью Что вам не говорят о регрессионном анализе для поиска дополнительных стратегий. Если возникают трудности при поиске правильной модели регрессии, то для Вас может оказаться полезным инструмент Исследовательская регрессия (Exploratory Regression).