Funktionsweise der Regressionsanalyse

Die Suche nach einem ordnungsgemäß spezifizierten OLS-Modell kann sich als schwierig erweisen, insbesondere dann, wenn zahlreiche potenzielle erklärende Variablen vorhanden sind, die Ihrer Meinung nach einen wichtigen Beitrag zu der zu modellierenden Variable (der abhängigen Variable) leisten können. Das Werkzeug "Regressionsanalyse" kann hier helfen. Es handelt sich hierbei um ein Data-Mining-Werkzeug, das alle möglichen Kombinationen von erklärenden Variablen ausprobiert, um festzustellen, welche Modelle alle erforderlichen OLS-Diagnoseprüfungen bestehen. Die Auswertung aller möglichen Kombinationen der potenziellen erklärenden Variablen steigert Ihre Chancen erheblich, das optimale Modell zum Lösen eines Problems oder zur Beantwortung einer Frage zu finden. Die Regressionsanalyse ist der (in vielen statistischen Softwarepaketen verwendeten) schrittweisen Regression zwar sehr ähnlich, allerdings wird bei der Regressionsanalyse nicht nur nach Modellen mit hohen Adjusted R2-Werten, sondern nach Modellen gesucht, die alle Anforderungen und Annahmen der OLS-Methode erfüllen.

Verwenden des Werkzeugs "Regressionsanalyse"

Wenn Sie das Werkzeug "Regressionsanalyse" ausführen, geben Sie eine Minimal- und Maximalanzahl von erklärenden Variablen an, die jedes Modell enthalten soll, sowie ein Schwellwertkriterium für Adjusted R2, p-Werte für Koeffizient, Varianzinflationsfaktor (VIF)-Werte, Jarque-Bera-p-Werte und p-Werte der räumlichen Autokorrelation. Bei einer Regressionsanalyse wird OLS für jede mögliche Kombination der erklärenden Variablenkandidaten für Modelle ausgeführt, die mindestens die minimale Anzahl erklärender Variablen und nicht mehr als die Maximale Anzahl erklärender Variablen aufweisen. Jedes getestete Modell wird anhand der Suchkriterien bewertet. Wenn ein Modell gefunden wird, das ...

  • den angegebenen Adjusted R2-Schwellenwert übersteigt,
  • für alle erklärenden Variablen kleinere als die angegebenen p-Werte für Koeffizienten aufweist,
  • für alle erklärenden Variablen kleinere VIF-Werte für Koeffizienten als den angegebenen Schwellenwert aufweist,
  • einen größeren als den angegebenen Jarque-Bera-p-Wert zurückgibt,

wird das Werkzeug Räumliche Autokorrelation (Morans I) für die Residuen dieses Modells ausgeführt. Wenn der p-Wert der räumlichen Autokorrelation ebenfalls größer ist als der Wert, den Sie in den Suchkriterien des Werkzeugs (Minimaler annehmbarer p-Wert für räumliche Autokorrelation) angegeben haben, wird das Modell als bestandenes Modell aufgeführt. Das Werkzeug "Regressionsanalyse" testet außerdem Regressionsresiduen mit dem Werkzeug "Räumliche Autokorrelation" für Modelle mit den drei höchsten Adjusted R2-Ergebnissen.

Unter Bestandene Modelle aufgeführte Modelle erfüllen die angegebenen Suchkriterien. Wenn Sie für die Optionen Maximaler p-Wert für Koeffizient - Grenzwert, Maximaler VIF-Wert - Grenzwert, Minimaler annehmbarer p-Wert Jarque Bera und Minimaler annehmbarer p-Wert für räumliche Autokorrelation die Standardwerte verwenden, sind die bestandenen Modelle auch ordnungsgemäß spezifizierte OLS-Modelle. Ein ordnungsgemäß spezifiziertes OLS-Modell verfügt über folgende Elemente:

  • Erklärende Variablen, deren Koeffizienten sämtlich statistisch signifikant sind
  • Koeffizienten, die die erwartete oder zumindest eine begründbare Beziehung zwischen jeder erklärenden Variablen und der abhängigen Variablen widerspiegeln
  • Erklärende Variablen, die unterschiedliche Aspekte des zu modellierenden Phänomens betreffen (keine redundanten Variablen, kleine VIF-Werte unter 7,5)
  • Normal verteilte Residuen, die anzeigen, dass das Modell keine Tendenz aufweist (Jarque-Bera-p-Wert ist nicht statistisch signifikant)
  • Zufällig verteilte zu hohe oder zu niedrige Vorhersagen, die anzeigen, dass Modellresiduen normal verteilt sind (der p-Wert der räumlichen Autokorrelation ist nicht statistisch signifikant)

Wenn Sie eine Ausgabeergebnistabelle angeben, werden Modelle, die das Kriterium Maximaler VIF-Wert - Grenzwert erfüllen, und deren erklärende Variablen sämtlich das Kriterium Maximaler p-Wert für Koeffizient - Grenzwert erfüllen, in eine Tabelle geschrieben. Diese Tabelle ist nützlich, wenn Sie mehr als nur die in der Textberichtsdatei enthaltenen Modelle untersuchen möchten.

Einige Warnhinweise

Beachten Sie, dass die Verwendung des Werkzeugs Regressionsanalyse ähnlich wie die Verwendung von Methoden wie der schrittweisen Regression umstritten ist. Dies ist zwar übertrieben, es gibt jedoch im Grunde zwei Denkrichtungen hierzu: den Standpunkt der wissenschaftlichen Methode und den Standpunkt des Data-Miner.

Standpunkt der wissenschaftlichen Methode

Ein überzeugter Befürworter der wissenschaftlichen Methode erhebt eventuell Einwände gegen die Methoden der Regressionsanalyse. Aus seiner Perspektive müssen Sie eine Hypothese formalisieren, bevor Sie Ihre Daten untersuchen, um zu verhindern, dass die erzeugten Modelle nur für Ihre Daten geeignet sind und keine allgemeineren Prozesse widerspiegeln. Modelle, die an ein bestimmtes Dataset überangepasst sind, sind für andere Datasets möglicherweise nicht relevant – manchmal führt sogar das Hinzufügen neuer Beobachtungen dazu, dass das überangepasste Modell instabil wird (Performance verschlechtert sich und/oder Signifikanz von Koeffizienten erklärender Variablen nimmt ab). Wenn ein Modell selbst bei neuen Beobachtungen instabil reagiert, ist es mit Sicherheit nicht für die Schlüsselprozesse geeignet, die Sie modellieren möchten.

Machen Sie sich darüber hinaus bewusst, dass Regressionsstatistiken auf Wahrscheinlichkeitstheorie basieren. Wenn Sie Tausende von Modellen ausführen, steigt die Wahrscheinlichkeit, dass die Nullhypothese (statistischer Typ-1-Fehler) fälschlicherweise zurückgewiesen wird, erheblich. Wenn Sie z. B. ein Konfidenzniveau von 95 Prozent auswählen, akzeptieren Sie ein bestimmtes Risiko; wenn Sie 100 Stichproben für die Daten durchführen könnten, ist es wahrscheinlich, dass 5 dieser 100 Stichproben falsch positive Ergebnisse hervorbringen. P-Werte werden für jeden Koeffizienten berechnet; die Nullhypothese besagt, dass der Koeffizient tatsächlich Null und folglich die mit diesem Koeffizienten verknüpfte erklärende Variable für das Modell nicht hilfreich ist. Die Wahrscheinlichkeitstheorie besagt, dass in 5 von 100 Stichproben der p-Wert möglicherweise nur aus dem Grund statistisch signifikant ist, weil Sie zufälligerweise Beobachtungen ausgewählt haben, die diese Schlussfolgerung fälschlicherweise stützen. Wenn Sie nur ein Modell ausführen, scheint ein Konfidenzniveau von 95 Prozent ein konservativer Wert. Mit zunehmender Anzahl der getesteten Modelle verschlechtert sich Ihre Möglichkeit, Schlussfolgerungen aus den Ergebnissen zu ziehen. Mit dem Werkzeug Regressionsanalyse können Tausende Modelle in nur wenigen Minuten getestet werden. Die Anzahl der getesteten Modelle wird im Abschnitt Globale Zusammenfassung der Ausgabeberichtsdatei angegeben.

Standpunkt des Data-Mining

Verfechter des Data-Mining-Standpunktes hingegen halten es vermutlich für unmöglich, dass bereits vorab alle Faktoren bekannt sind, die zu einem bestimmten realen Ergebnis beitragen. Häufig sind die Fragen, die wir zu beantworten versuchen, sehr komplex, und es gibt möglicherweise keine oder nur veraltete Theorien zu dem betreffenden speziellen Thema. Data-Miner sind überzeugte Befürworter von induktiven Analysen wie den bei der Regressionsanalyse durchgeführten. Sie ermutigen dazu, über den Tellerrand hinauszusehen und Methoden der Regressionsanalyse zur Entwicklung von Hypothesen einzusetzen.

Empfehlungen

Unserer Meinung nach ist die Regressionsanalyse bei sachgemäßer Verwendung ein wertvolles Data-Mining-Werkzeug, das Sie bei der Suche nach einem ordnungsgemäß spezifizierten OLS-Modell unterstützen kann. Wir empfehlen, dass Sie stets potenzielle erklärende Regressionsvariablen auswählen, die von der Theorie, Ratschlägen von Experten und dem gesunden Menschenverstand gestützt werden. Kalibrieren Sie Ihre Regressionsmodelle anhand einer Teilmenge Ihrer Daten, und validieren Sie sie mit den verbleibenden Daten, oder validieren Sie das Modell anhand zusätzlicher Datasets. Wenn Sie planen, Schlussfolgerungen aus den Ergebnissen zu ziehen, sollten Sie zumindest eine Empfindlichkeitsanalyse wie z. B. Bootstrapping durchführen.

Die Verwendung des Werkzeugs "Regressionsanalyse" hat Vorteile gegenüber der Verwendung anderer untersuchender Methoden, die die Modell-Performance lediglich anhand von Adjusted R2-Werten bewerten. Das Werkzeug "Regressionsanalyse" sucht nach Modellen, die alle oben beschriebenen OLS-Diagnoseprüfungen bestehen.