Mit Hilfe der Regressionsanalyse kann in einem mathematischen Modell ein vermuteter kausaler Zusammenhang zwischen zwei oder mehreren Eigenschaften (Variablen) von Objekten beschrieben werden, sofern eine statistisch ausreichende Anzahl vergleichbarer Objekte vorliegt. So kann man z. B. feststellen, dass die Höhe einer Wohnungsmiete (abhängige Variable) bis zu einem gewissen Grad von der Größe einer Wohnung (unabhängige Variable) abhängt. Bei einer unabhängigen Variablen spricht man von einer „einfachen Regressionsanalyse“, bei mehreren unabhängigen Variablen (es könnte zusätzlich zur Wohnungsgröße noch die Abhängigkeit von der Lageklasse und von der Anzahl der Räume untersucht werden) von einer „multiplen Regressionsanalyse“.
Ziel der Analyse ist es, einen Trend zu erkennen, bzw. für ein Bewertungsobjekt die Größe der abhängigen Variablen – bei Bewertungen oft Miethöhe, Kaufpreis o.ä. – abzuschätzen.
Beispiel für eine einfache lineare Regression:
Wohnfläche in Quadratmeter |
40 | 48 | 51 | 54 | 60 |
Netto-Kaltmiete in Euro |
278 | 290 | 324 | 350 | 380 |
Da die manuelle Berechnung einer linearen Regression nach der „Methode der kleinsten Quadrate“ relativ rechenintensiv ist, führt man die Regressionsanalyse in der Regel mit einem Statistikprogramm wie z. B. „R“ oder einem Tabellenkalkulationsprogramm wie „Excel“ oder „Calc“ durch, bei denen die Regressionsanalyse schon als feste Funktion integriert ist.
Mit diesen Programmen erzeugt man zunächst ein Streudiagramm (siehe unten) um die vermutete Abhängigkeit visuell zu kontrollieren. Die oben genannten Programme zeigen dem Anwender auch gleich in diesem Streudiagramm die Regressionsgerade als Trendlinie und die berechnete Regressionsgleichung an.
Mit der folgenden erzeugten Regressionsgleichung können nun Netto-Kaltmieten für beliebige Wohnflächen, die möglichst innerhalb oder nicht zu weit außerhalb der Grenzen der Tabellenwerte liegen, berechnet werden:
Netto-Kaltmiete = 5.43 X Wohnfläche + 49.52
Neben linearen ist es ebenfalls möglich kurvenförmige Abhängigkeiten durch Linearisierung mittels Logarithmieren der abhängigen und/oder unabhängigen Variablen zu berechnen. In den genannten Kalkulationsprogrammen sind auch diese Möglichkeiten in den Diagrammfunktionen implementiert.
Einen ersten Hinweis auf die Aussagekraft der Regression gibt das Bestimmtheitsmaß r² bzw. der Korrelationskoeffizient r, der Werte zwischen -1 und +1 annehmen kann (Korrelationsanalyse). Die Aussagekraft steigt mit Annäherung an -1 oder +1. Bei r = 0 kann davon ausgegangen werden, dass die gewählten Eigenschaften nicht voneinander abhängig sind. Erkenntnisse über den Vertrauensbereich (Konfidenzintervall) der Regressionsgeraden und des Korrelationskoeffizienten liefern standardmäßig nur ausgewiesene Statistikprogramme.