Il peut être difficile de trouver un modèle des moindres carrés ordinaires correctement spécifié, particulièrement s'il existe de nombreuses variables explicatives potentielles qui peuvent, selon vous, fortement influencer la variable que vous tentez de modéliser (votre variable dépendante). L'outil Régression exploratoire peut vous aider à trouver le modèle approprié. Cet outil d'extraction de données permet d'explorer toutes les combinaisons possibles de variables explicatives et de repérer les modèles qui satisfont à tous les diagnostics de la méthode des moindres carrés ordinaires. En évaluant toutes les combinaisons possibles des variables explicatives candidates, vous augmentez fortement vos chances de trouver le meilleur modèle possible pour résoudre votre problème ou répondre à votre question. Si la régression exploratoire est similaire à la régression pas à pas (présente dans de nombreux progiciels d'analyse statistique), au lieu de rechercher uniquement des modèles avec des valeurs R2 ajustées élevées, l'outil Régression exploratoire recherche des modèles qui répondent à tous les critères et hypothèses de la méthode des moindres carrés ordinaires.
Utilisation de l'outil Régression exploratoire
Lorsque vous exécutez l'outil Régression exploratoire, vous spécifiez le nombre minimum et maximum de variables explicatives que doit contenir chaque modèle, ainsi que des critères de seuil pour les valeurs R2 ajustées, les valeurs p des coefficients, les valeurs de facteur d'inflation de la variance (VIF), les valeurs p Jarque-Bera, ainsi que les valeurs p d'autocorrélation spatiale. L'outil Régression exploratoire exécute la méthode des moindres carrés ordinaires sur toutes les combinaisons possibles des Variables explicatives candidates pour des modèles comportant au moins le Nombre minimal de variables explicatives et pas plus que le Nombre maximal de variables explicatives. Chaque modèle testé est évalué en fonction de vos Critères de recherche. Lorsque l'outil Régression exploratoire trouve un modèle :
- qui dépasse le seuil R2 ajusté que vous avez spécifié,
- avec, pour toutes les variables explicatives, des valeurs p de coefficients inférieures à ce que vous avez spécifié,
- avec, pour toutes les variables explicatives, des valeurs VIF de coefficients inférieures à ce que vous avez spécifié,
- renvoyant une valeur p Jarque-Bera supérieure à ce que vous avez spécifié,
il exécute alors l'outil Spatial Autocorrelation (Global Moran’s I) sur les valeurs résiduelles de ce modèle. Si la valeur p d'autocorrélation spatiale est également supérieure à celle que vous avez spécifiée dans les critères de recherche de l'outil (Valeur p minimale acceptable pour l'autocorrélation spatiale), le modèle apparaît dans la liste en tant que modèle concluant. L'outil Régression exploratoire teste également les valeurs résiduelles de régression à l'aide de l'outil Spatial Autocorrelation pour les modèles ayant les trois résultats R2 ajustés les plus élevés.
Les modèles répertoriés dans la liste Modèles concluants répondent aux critères de recherche que vous avez spécifiés. Si vous acceptez les valeurs par défaut des paramètres Limite des valeurs p des coefficients maximaux, Limite des valeurs VIF maximales, Valeur p minimale acceptable du test Jarque Bera et Valeur p minimale acceptable pour l'autocorrélation spatiale, vos modèles concluants seront aussi des modèles des moindres carrés ordinaires correctement spécifiés. Un modèle des moindres carrés correctement spécifié comporte les éléments suivants :
- des variables explicatives où tous les coefficients sont statistiquement significatifs,
- des coefficients reflétant les relations attendues, ou au moins une relation justifiable, entre chaque variable explicative et la variable dépendante,
- des variables explicatives qui permettent de trouver différents aspects de ce que vous tentez de modéliser (aucune d'elle n'est redondante ; les valeurs VIF faibles sont inférieures à 7,5),
- des valeurs résiduelles normalement distribuées indiquant que votre modèle n'est pas biaisé (la valeur p Jarque-Bera n'est pas statistiquement significative),
- des surestimations et des sous-estimations distribuées de façon aléatoire, indiquant que les valeurs résiduelles du modèle sont distribuées normalement (la valeur p de l'autocorrélation spatiale n'est pas statistiquement significative).
Si vous spécifiez une Table des résultats en sortie, les modèles satisfaisant à votre critère de Limite des valeurs VIF maximales et pour lesquels toutes les variables explicatives respectent les critères de Limite des valeurs p des coefficients maximaux seront enregistrés dans une table. Cette table est utile pour étudier également d'autres modèles que ceux inclus dans le fichier texte du rapport.
Avertissement
Sachez que, tout comme l'utilisation de méthodes telles que la régression pas à pas, l'utilisation de l'outil Régression exploratoire est controversée. Bien que ce soit excessif, il existe deux écoles de pensée à ce sujet : le point de vue des partisans de la méthode scientifique et le point de vue de l'extracteur de données.
Point de vue des partisans de la méthode scientifique
Les fervents partisans de la méthode scientifique peuvent être opposés aux méthodes de régression exploratoire. Selon eux, vous devez formaliser vos hypothèses avant d'explorer vos données afin d'éviter de créer des modèles adaptés à vos données uniquement et ne reflétant pas des processus plus vastes. La création de modèles surajustés pour un jeu de données spécifique peut ne pas convenir pour d'autres jeux de données. En fait, parfois, le simple ajout de nouvelles observations rend instable un modèle surajusté (les performances et/ou le coefficient des variables explicatives peuvent décroître). Si votre modèle n'est pas suffisamment robuste pour accepter de nouvelles observations, il ne peut pas traiter les processus clé de l'objet de la modélisation.
En outre, vous devez comprendre que les statistiques de régression sont basées sur la théorie de probabilité, et lorsque vous exécutez des milliers de modèles, vous risquez fortement de rejeter à tort l'hypothèse nulle (une erreur statistique de type 1). Si vous sélectionnez un niveau de confiance de 95 pour cent, par exemple, vous acceptez un risque particulier. Si vous pouviez ré-échantillonner vos données 100 fois, la probabilité indique que jusqu'à 5 de ces 100 échantillons produiraient des faux positifs. Les valeurs p sont calculées pour chaque coefficient. L'hypothèse nulle est que le coefficient est en fait égal à zéro et, par conséquent, la variable explicative associée à ce coefficient n'aide pas votre modèle. La théorie de la probabilité indique que pour 5 échantillons sur 100, la valeur p peut être statistiquement significative uniquement parce que vous avez sélectionné des observations confirmant à tort cette conclusion. Si vous exécutez un seul modèle, un niveau de confiance de 95 pour cent semble modeste. Au fur et à mesure que vous augmentez le nombre de modèles que vous testez, vous diminuez votre capacité à tirer des conclusions de vos résultats. L'outil Régression exploratoire peut tester des milliers de modèles en quelques minutes. Le nombre de modèles testés est indiqué dans la section Récapitulatif global du Fichier de rapport en sortie.
Point de vue de l'extracteur de données
Les chercheurs partisans de l'extraction de données, quant à eux, pensent probablement qu'il est impossible de connaître a priori tous les facteurs permettant d'obtenir un résultat réel donné. Les questions auxquelles nous tentons de répondre sont souvent complexes, et la théorie relative à notre sujet d'étude peut ne pas exister ou être caduque. Les partisans de l'extraction de données apprécient beaucoup les analyses inductives telles que celles permises par la régression exploratoire. Ils encouragent un mode de pensée non conventionnel et l'utilisation des méthodes de régression exploratoire pour le développement d'hypothèses.
Recommandations
Nous pensons que la régression exploratoire, utilisée à bon escient, est un précieux outil d'extraction de données qui peut vous aider à trouver un modèle des moindres carrés ordinaires correctement spécifié. Nous vous recommandons de toujours sélectionner des variables de régression explicatives candidates soutenues par la théorie, l'avis d'experts et le bon sens. Calibrez votre modèle de régression à l'aide d'une partie de vos données et validez-le avec celles qui restent, ou validez votre modèle sur des jeux de données supplémentaires. Si vous avez l'intention de tirer des conclusions de vos résultats, vous devrez au minimum effectuer une analyse de la sensibilité, telle que le bootstrapping.
L'utilisation de l'outil Régression exploratoire présente effectivement des avantages par rapport à d'autres méthodes exploratoires qui évaluent la performance d'un modèle uniquement en terme de valeurs R2 ajustées. L'outil Régression exploratoire recherche les modèles répondant à tous les critères de diagnostic de la méthode des moindres carrés ordinaires décrits ci-dessus.
Vous avez un commentaire à formuler concernant cette rubrique ?