Statistik

Das Bestimmtheitsmaß


In der Regressionsanalyse wird standardmäßig das Bestimmtheitsmaß R2 ausgewiesen. Wurde die Regressionsgerade dabei mit einem Interzept geschätzt, so kann das R2 ausschließlich Werte zwischen Null und Eins annehmen, weshalb das R2 auch als jener Anteil an der Gesamtstreuung interpretiert werden kann, der durch die Regressionsgerade (das Modell) erklärt wird.

Eine andere - und unseres Erachtens plakativere - Interpretation, soll das folgende Beispiel veranschaulichen.

Stellen Sie sich vor, Sie haben Daten zu allen in Österreich aktuell lebenden Personen vorliegen. Konkret kennen Sie von jeder Person das Geschlecht, die Körpergröße und das Alter. Die Tabelle soll die Idee veranschaulichen.

Lf-Nr. weiblich Körpergröße Alter
1 ja 168 cm 47
2 ja 167 cm 24
3 nein 176 cm 19
nein 184 cm 57
5 nein 147 cm 12
. . . .
7.999.999 ja 166 cm 84
8.000.000 nein 101 cm 9

Basierend auf diesen Informationen sollen Sie nun wiederholt schätzen, wie groß zufällig ausgewählte Personen sind. Was würden Sie jeweils antworten?

Wenn Sie bei jeder Schätzung die Wahrscheinlichkeit maximieren wollten, dass Sie richtig liegen, so müssten Sie den Modus zur Antwort geben, da der Modus jene Körpergröße ist, die am häufigsten vorkommt (so es nur einen Modus gibt).

Genauso gut könnten Sie aber auch das arithmetische Mittel zur Antwort geben, wenn Sie möchten, dass über alle Schätzungen der durchschnittliche Schätzfehler möglichst klein wird.

Wenn Sie aber wüssten, welches Geschlecht die jeweils ausgewählte Person hat (Sie also eine erklärende Variable haben), würde das wahrscheinlich Ihre Schätzungen verbessern - jedenfalls aber nicht verschlechtern. Und wenn Sie zudem noch das Alter kennen würden (Sie also zwei erklärende Variable haben), würde sich Ihre Schätzung wahrscheinlich noch einmal verbessern. Letztendlich bedeutet das lediglich, dass sich die Schätzgenauigkeit durch zusätzliche Informationen nicht verschlechtern kann. Und genau das kommt im R2 zum Ausdruck.

Das R2 drückt aus, um wie viel Prozent sich der Schätzfehler reduziert, wenn Sie das Geschlecht kennen und basierend auf dieser Information (wiederholt) die Körpergröße schätzen, und nicht lediglich das arithmetische Mittel als Schätzung angeben.

Kennen Sie neben dem Geschlecht auch noch das Alter der zufällig ausgewählten Personen, und verwenden Sie diese Informationen für Ihre (wiederholten) Schätzungen, so drückt das R2 aus, um wieviel Prozent sich der Schätzfehler reduziert, wenn Sie diese beiden Informationen Ihren Schätzungen zugrunde legen und nicht das arithmetische Mittel als Schätzung angeben.

Etwas allgemeiner anhand eines konkreten R2 von 0,79:

Ein R2 von 0,79 besagt, dass der Prognosefehler um 79% sinkt, wenn die Regressionsgerade (das Modell) zur Prognose der abhängigen Variable verwendet wird, anstatt des (arithmetischen) Mittels.

Das korrigierte Bestimmtheitsmaß

Da das R2 durch eine zusätzliche erklärende Variable nie fallen kann, kann es Sinn machen, die Anzahl an erklärenden Variablen bei der Berechnung des R2 zu berücksichtigen. Die Überlegung dahinter ist, dass eine gegebene Schätzqualität als "besser" eingestuft werden kann, wenn diese mit weniger erklärenden Variablen erreicht wird.

Um beim Beispiel zu bleiben: Stellen Sie sich vor, dass Ihre Schätzung der Körpergröße, wenn Sie lediglich das Alter als zusätzliche Information haben, genauso gut ist, wie wenn Sie das Alter und das Geschlecht der Person kennen - Sie also in beiden Fällen dasselbe R2 haben. Dann wüssten Sie, dass das Wissen um das Geschlecht der Person Ihre Schätzung nicht verbessert und Ihnen diese Information nichts nützt. Das korrigierte R2 berücksichtigt dies und ist dementsprechend geringer als im ersten Fall.

Zurück zur Übersicht