Fonctionnement de la régression exploratoire

Il peut être difficile de trouver un modèle des moindres carrés ordinaires correctement spécifié, particulièrement s’il existe de nombreuses variables explicatives potentielles qui peuvent, selon vous, fortement influencer la variable que vous tentez de modéliser (la variable dépendante). L’outil Regression exploratoire peut vous y aider. Cet outil d’extraction de données permet d’explorer toutes les combinaisons possibles de variables explicatives et de repérer les modèles qui satisfont à tous les diagnostics de la méthode des moindres carrés ordinaires. En évaluant toutes les combinaisons possibles des variables explicatives candidates, vous augmentez fortement vos chances de trouver le meilleur modèle possible pour résoudre un problème ou répondre à une question. Bien que la régression exploratoire est similaire à la régression pas à pas (présente dans de nombreux packs logiciels de statistiques), au lieu de rechercher uniquement des modèles avec des valeurs R2 ajustées élevées, l’outil Régression exploratoire recherche des modèles qui répondent à tous les critères et hypothèses de la méthode des moindres carrés ordinaires.

Utilisation de l’outil Régression exploratoire

Lorsque vous exécutez l’outil Régression exploratoire, vous spécifiez le nombre minimal et maximal de variables explicatives que doit contenir chaque modèle, ainsi que des critères de seuil pour les valeurs R2 ajustées, les valeurs p des coefficients, les valeurs de facteur d’inflation de la variance (VIF), les valeurs p Jarque-Bera et les valeurs p d’autocorrélation spatiale. L’outil Régression exploratoire exécute la méthode des moindres carrés ordinaires sur toutes les combinaisons possibles des valeurs du paramètre Variables explicatives candidates des modèles comportant au minimum la valeur de paramètre Nombre minimal de variables explicatives et au maximum la valeur du paramètre Nombre maximal de variables explicatives. Chaque modèle testé est évalué en fonction de la valeur du paramètre Critères de recherche. Lorsque l’outil trouve un modèle :

  • qui dépasse le seuil R2 ajusté que vous avez spécifié,
  • avec, pour toutes les variables explicatives, des valeurs p de coefficients inférieures à ce que vous avez spécifié,
  • avec, pour toutes les variables explicatives, des valeurs VIF de coefficients inférieures à ce que vous avez spécifié,
  • renvoyant une valeur p Jarque-Bera supérieure à ce que vous avez spécifié,

il exécute alors l’outil Autocorrélation spatiale (Global Moran’s I) sur les valeurs résiduelles de ce modèle. Si la valeur p d’autocorrélation spatiale est également supérieure à celle que vous avez spécifiée dans les critères de recherche de l’outil (valeur du paramètre Valeur p minimale acceptable pour l’autocorrélation spatiale), le modèle apparaît dans la liste en tant que modèle concluant. L’outil Régression exploratoire teste également les valeurs résiduelles de régression à l’aide de l’outil Autocorrélation spatiale pour les modèles ayant les trois résultats R2 ajustés les plus élevés.

Les modèles répertoriés dans la section des modèles concluants répondent aux critères de recherche que vous avez spécifiés. Si vous acceptez les valeurs par défaut des paramètres Limite des valeurs p des coefficients maximaux, Limite des valeurs VIF maximales, Valeur p minimale acceptable du test Jarque Bera et Valeur p minimale acceptable pour l’autocorrélation spatiale, les modèles concluants seront aussi des modèles des moindres carrés ordinaires correctement spécifiés. Un modèle des moindres carrés correctement spécifié possède les propriétés suivantes :

  • des variables explicatives où tous les coefficients sont statistiquement significatifs,
  • des coefficients reflétant les relations attendues, ou au moins une relation justifiable, entre chaque variable explicative et la variable dépendante,
  • des variables explicatives qui représentent différents aspects de ce que vous tentez de modéliser (aucune d’elle n’est redondante ; les valeurs VIF faibles sont inférieures à 7,5),
  • des valeurs résiduelles normalement distribuées indiquant que le modèle n’est pas biaisé (la valeur p Jarque-Bera n’est pas statistiquement significative),
  • des surestimations et des sous-estimations distribuées de façon aléatoire, indiquant que les valeurs résiduelles du modèle sont normalement distribuées (la valeur p de l’autocorrélation spatiale n’est pas statistiquement significative).

Si vous spécifiez une valeur de paramètre Table des résultats en sortie, les modèles qui satisfont à la valeur du paramètre Limite des valeurs VIF maximales et pour lesquels toutes les variables explicatives respectent la valeur du paramètre Limite des valeurs p des coefficients maximaux sont inscrits dans une table. Cette table est utile si vous souhaitez également examiner d’autres modèles que ceux inclus dans le fichier texte du rapport.

Avertissement

Sachez que, tout comme l’utilisation de méthodes telles que la régression pas à pas, l’utilisation de l’outil Régression exploratoire est controversée. Bien que ce soit excessif, il existe deux écoles de pensée à ce sujet : le point de vue des partisans de la méthode scientifique et le point de vue de l’extracteur de données.

Point de vue des partisans de la méthode scientifique

Les fervents partisans de la méthode scientifique peuvent être opposés aux méthodes de régression exploratoire. Selon eux, vous devez formaliser vos hypothèses avant d’explorer les données afin d’éviter de créer des modèles adaptés uniquement à ces données qui ne reflètent pas des processus plus vastes. La création de modèles surajustés pour un jeu de données spécifique peut ne pas convenir pour d’autres jeux de données. En fait, parfois, le simple ajout de nouvelles observations rend instable un modèle surajusté (les performances peuvent décroître ou le coefficient des variables explicatives peut diminuer). Si le modèle n’est pas suffisamment robuste pour accepter de nouvelles observations, il ne peut assurément pas traiter les processus clés de l’objet de la modélisation.

En outre, vous devez comprendre que les statistiques de régression sont basées sur la théorie des probabilités, et lorsque vous exécutez des milliers de modèles, vous risquez fortement de rejeter à tort l’hypothèse nulle (erreur statistique de type 1). Si vous sélectionnez un niveau de confiance de 95 %, par exemple, vous acceptez un risque particulier. Si vous pouviez ré-échantillonner les données 100 fois, la probabilité indique que jusqu’à 5 de ces 100 échantillons produiraient de faux positifs. Les valeurs p sont calculées pour chaque coefficient. L’hypothèse nulle est que le coefficient est en fait égal à zéro et, par conséquent, la variable explicative associée à ce coefficient n’aide pas le modèle. La théorie des probabilités indique que pour 5 échantillons sur 100, la valeur p peut être statistiquement significative uniquement parce que vous avez sélectionné des observations confirmant à tort cette conclusion. Si vous exécutez un seul modèle, un niveau de confiance de 95 % semble modeste. Au fur et à mesure que vous augmentez le nombre de modèles que vous testez, vous diminuez votre capacité à tirer des conclusions à partir des résultats. L’outil Régression exploratoire peut tester des milliers de modèles en quelques minutes. Le nombre de modèles testés est indiqué dans la section Récapitulatif global de la valeur du paramètre Fichier de rapport en sortie.

Point de vue de l’extracteur de données

Les chercheurs partisans de l’extraction de données, quant à eux, pensent probablement qu’il est impossible de connaître a priori tous les facteurs permettant d’obtenir un résultat réel donné. Les questions auxquelles nous tentons de répondre sont souvent complexes, et la théorie relative à un sujet d’étude particulier peut ne pas exister ou être caduque. Les partisans de l’extraction de données apprécient beaucoup les analyses inductives telles que celles permises par la régression exploratoire. Ils encouragent un mode de pensée non conventionnel et l’utilisation des méthodes de régression exploratoire pour le développement d’hypothèses.

Recommandations

La Régression exploratoire, utilisé à bon escient, peut être un outil d’extraction de données précieux susceptible de vous aider à trouver un modèle des moindres carrés ordinaires correctement spécifié. Nous vous recommandons de toujours sélectionner des variables de régression explicatives candidates soutenues par la théorie, l’avis d’experts et le bon sens. Calibrez le modèle de régression à l’aide d’une partie des données et validez-le avec celles qui restent, ou validez le modèle sur des jeux de données supplémentaires. Si vous avez l’intention de tirer des conclusions des résultats, vous devez au minimum effectuer une analyse de sensibilité, comme le bootstrapping.

L’utilisation de l’outil Régression exploratoire présente effectivement des avantages par rapport à d’autres méthodes exploratoires qui évaluent la performance d’un modèle uniquement en termes de valeurs R2 ajustées. L’outil Régression exploratoire recherche les modèles répondant à tous les critères de diagnostic de la méthode des moindres carrés ordinaires décrits ci-dessus.