La Régression pondérée géographiquement est une technique de régression spatiale parmi d'autres, de plus en plus utilisée en géographie et dans d'autres disciplines. Elle offre un modèle local de la variable ou du processus que vous tentez de comprendre ou de prévoir en ajustant une équation de régression à chaque entité du jeu de données. Elle crée ces équations distinctes en insérant les variables dépendantes et explicatives des entités contenues dans la largeur de bande de chaque entité cible. La forme et la taille de la largeur de bande sont dépendantes de la valeur Type du noyau entrée par l'utilisateur pour la Méthode de largeur de bande, la Distance et les paramètres de Nombre de voisins.
Implémentation : conseils et remarques
Dans les modèles de régression globaux, tels que la régression des moindres carrés ordinaires, les résultats sont peu fiables lorsque deux variables ou plus présentent un phénomène de multicolinéarité (lorsque deux variables ou plus sont redondantes ou "racontent la même histoire"). La régression pondérée géographiquement génère une équation de régression locale pour chaque entité dans le jeu de données. Lorsque les valeurs d'une variable explicative particulière s'agrègent spatialement, vous risquez de rencontrer des problèmes de multicolinéarité locale. Le conditionnement dans la Classe d'entités en sortie indique quand les résultats sont instables en raison d'un problème de multicolinéarité local. En règle générale, ne vous fiez pas au résultat des entités présentant un conditionnement supérieur à 30, nul ou, pour les fichiers de formes, égal à -1.7976931348623158e+308.
Les erreurs graves de conception de modèle indiquent souvent un problème de multicolinéarité globale ou locale. Pour déterminer l'origine du problème, exécutez le modèle des moindres carrés ordinaires et examinez la valeur VIF pour chaque variable explicative. Si certaines valeurs VIF sont élevées (supérieures à 7,5, par exemple), la multicolinéarité globale empêche la résolution de la régression pondérée géographiquement. Toutefois, la multicolinéarité locale est plus vraisemblablement à l'origine du problème. Essayez de créer une carte thématique pour chaque variable explicative. Si la carte révèle une agrégation spatiale de valeurs identiques, envisagez la suppression de ces variables du modèle ou la combinaison de ces variables avec d'autres variables explicatives afin d'augmenter la variation des valeurs. Par exemple, si vous modélisez des valeurs d'habitat et que vous disposez de variables pour les chambres et les salles de bains, vous pouvez les combiner pour augmenter la variation des valeurs ou les représenter en tant que superficie salle de bain/chambre. Evitez d'utiliser des variables de régime spatiale fictives ou binaires, des variables catégorielles/nominales spatialement agrégées ou des variables avec très peu de valeurs possibles, lorsque vous créer des modèles de régression pondérée géographiquement.
Des problèmes de multicolinéarité locale peuvent également empêcher Bandwidth method (Méthodes de largeur de bande) AIC et CV de calculer une distance ou un nombre de voisins optimal. Essayez de spécifier une distance particulière ou un nombre de voisins spécifique, puis examinez les conditionnements dans Output feature class (Classe d’entités en sortie) pour identifier les entités qui sont associées à des problèmes de multicolinéarité locale (conditionnements supérieurs à 30). Vous pouvez supprimer ces entités de problématiques temporairement en attendant de trouver une distance/un nombre optimal de voisins. N'oubliez pas que les résultats associés à des conditionnements supérieurs à 30 ne sont pas fiables.
Le conditionnement indique la dépendance d’une solution d’équation linéaire par rapport aux petites variations des coefficients de matrice. Lorsque le conditionnement est supérieur à 30, les résultats d'une entité individuelle ne sont pas compris dans la variance des estimations du paramètre ; cela impacte le diagnostic d'erreur standard, la valeur sigma globale et les valeurs résiduelles standardisées.
L'utilisateur peut modifier ce seuil de conditionnement en réinitialisant le registre :
[HKEY_CURRENT_USER\Software\ESRI\GeoStatisticalExtension\DefaultParams\GWR]
"ConditionNumberThreshold"="40"
Les estimations de paramètre et les valeurs prévues pour la régression pondérée géographiquement sont calculées à l'aide de la fonction de pondération spatiale suivante : exp(-d^2/b^2). Cette fonction de pondération peut être légèrement différente suivant le type d'implémentation du logiciel de régression pondérée géographiquement. Par conséquent, les résultats de l’outil Esri Régression pondérée géographiquement peuvent ne pas correspondre exactement aux résultats d’autres solutions logicielles similaires.
Ressources supplémentaires
Il existe nombre de ressources recommandables qui traitent du modèle des moindres carrés ordinaires et de la régression pondérée géographiquement. Commencez par lire la documentation Principes de base de l’analyse de régression et/ou par regarder le webinaire gratuit d’une heure Campus virtuel Esri Analyse de régression. Ensuite, exercez-vous avec un didacticiel d'analyse de régression. Quand vous commencerez à créer vos propres modèles de régression, vous pourrez consulter les documents Interprétation des résultats de régression des moindres carrés ordinaires et Interprétation des résultats de régression pondérée géographiquement pour mieux comprendre la problématique de résultat en sortie et de diagnostic de régression.
Autres ressources
Fotheringham, Stewart A., Chris Brunsdon et Martin Charlton. Geographically Weighted Regression: the analysis of spatially varying relationships. John Wiley & Sons, 2002.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.