GAW

Das Bestimmtheitsmaß

In der Regressionsanalyse wird standardmäßig das Bestimmtheitsmaß R² ausgewiesen. Wurde die Regressionsgerade dabei mit einem Interzept geschätzt, so kann das R² ausschließlich Werte zwischen Null und Eins annehmen, weshalb das R² auch als jener Anteil an der Gesamtstreuung interpretiert werden kann, der durch die Regressionsgerade (das Modell) erklärt wird.

Eine andere - und unseres Erachtens plakativere - Interpretation, soll das folgende Beispiel veranschaulichen.

Stellen Sie sich vor, Sie haben Daten zu allen in Österreich aktuell lebenden Personen vorliegen. Konkret kennen Sie von jeder Person das Geschlecht, die Körpergröße und das Alter. Die Tabelle soll die Idee veranschaulichen.

Lf-Nr.	weiblich	Körpergröße	Alter
1	ja	168 cm	47
2	ja	167 cm	24
3	nein	176 cm	19
nein	184 cm	57
5	nein	147 cm	12
.	.	.	.
7.999.999	ja	166 cm	84
8.000.000	nein	101 cm	9

Basierend auf diesen Informationen sollen Sie nun wiederholt schätzen, wie groß zufällig ausgewählte Personen sind. Was würden Sie jeweils antworten?

Wenn Sie bei jeder Schätzung die Wahrscheinlichkeit maximieren wollten, dass Sie richtig liegen, so müssten Sie den Modus zur Antwort geben, da der Modus jene Körpergröße ist, die am häufigsten vorkommt (so es nur einen Modus gibt).

Genauso gut könnten Sie aber auch das arithmetische Mittel zur Antwort geben, wenn Sie möchten, dass über alle Schätzungen der durchschnittliche Schätzfehler möglichst klein wird.

Wenn Sie aber wüssten, welches Geschlecht die jeweils ausgewählte Person hat (Sie also eine erklärende Variable haben), würde das wahrscheinlich Ihre Schätzungen verbessern - jedenfalls aber nicht verschlechtern. Und wenn Sie zudem noch das Alter kennen würden (Sie also zwei erklärende Variable haben), würde sich Ihre Schätzung wahrscheinlich noch einmal verbessern. Letztendlich bedeutet das lediglich, dass sich die Schätzgenauigkeit durch zusätzliche Informationen nicht verschlechtern kann. Und genau das kommt im R² zum Ausdruck.

Das R² drückt aus, um wie viel Prozent sich der Schätzfehler reduziert, wenn Sie das Geschlecht kennen und basierend auf dieser Information (wiederholt) die Körpergröße schätzen, und nicht lediglich das arithmetische Mittel als Schätzung angeben.

Kennen Sie neben dem Geschlecht auch noch das Alter der zufällig ausgewählten Personen, und verwenden Sie diese Informationen für Ihre (wiederholten) Schätzungen, so drückt das R² aus, um wieviel Prozent sich der Schätzfehler reduziert, wenn Sie diese beiden Informationen Ihren Schätzungen zugrunde legen und nicht das arithmetische Mittel als Schätzung angeben.

Etwas allgemeiner anhand eines konkreten R² von 0,79:

Ein R² von 0,79 besagt, dass der Prognosefehler um 79% sinkt, wenn die Regressionsgerade (das Modell) zur Prognose der abhängigen Variable verwendet wird, anstatt des (arithmetischen) Mittels.

Das korrigierte Bestimmtheitsmaß

Da das R² durch eine zusätzliche erklärende Variable nie fallen kann, kann es Sinn machen, die Anzahl an erklärenden Variablen bei der Berechnung des R² zu berücksichtigen. Die Überlegung dahinter ist, dass eine gegebene Schätzqualität als "besser" eingestuft werden kann, wenn diese mit weniger erklärenden Variablen erreicht wird.

Um beim Beispiel zu bleiben: Stellen Sie sich vor, dass Ihre Schätzung der Körpergröße, wenn Sie lediglich das Alter als zusätzliche Information haben, genauso gut ist, wie wenn Sie das Alter und das Geschlecht der Person kennen - Sie also in beiden Fällen dasselbe R² haben. Dann wüssten Sie, dass das Wissen um das Geschlecht der Person Ihre Schätzung nicht verbessert und Ihnen diese Information nichts nützt. Das korrigierte R² berücksichtigt dies und ist dementsprechend geringer als im ersten Fall.

Zurück zur Übersicht

Statistik

Das Bestimmtheitsmaß

Das korrigierte Bestimmtheitsmaß