Lineare Regression

aus ZUM-Wiki, dem Wiki für Lehr- und Lerninhalte auf ZUM.de
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Einführung in die lineare Regression

In Statistiken werden häufig die Abhängigkeiten von zwei Merkmalsausprägungen untersucht. Dies kann zum Beispiel der Preis eines Produktes und die Verkaufszahlen oder die Geburtenrate in Deutschland und die Anzahl hier heimischer Störche sein. Ergebnisse solcher Untersuchung können dann als Punkte in ein Diagramm eingetragen werden. Eine solche Punktemenge besitzt einen Schwerpunkt. Eine Gerade, die durch diese Punktemenge und ihren Schwerpunkt verläuft und die Punktemenge am besten annähert nennt man die Regressionsgerade. Ihr Verlauf lässt sich also auf die gegebenen Punkte zurückführen.

Tschlinkert Regr2.gif

Sachanalyse

Ein paar notwendige Begriffe und Formeln sind nötig, um eine Regressionsgerade zu bestimmen.

Die Standardabweichung

Die Standardabweichung ist ein Maß für die Streuung von Werten einer Zufallsvariablen um ihren Mittelwert.

Die Standardabweichung lässt sich als Wurzel aus der Varianz berechnen:V_x=\sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})^2}

Die Varianz

Die Varianz ist ein Streuungsmaß, das die Abweichung einer Variablen von ihrem Erwartungswert beschreibt. Sie ist die quadratische Standardabweichung.

Berechnet wird sie wie folgt:

V_x=\frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})^2

Der Schwerpunkt

Der Schwerpunkt S einer Punktemenge hilft die Lage dieser grob zu beschreiben. Seine Koordinaten berechnet man durch die Mittelwerte der einzelnen Merkmale. Eine Punktemenge kann auch als Punktewolke bezeichnet werden.

S(\overline{x}/\overline{y})

Die Kovarianz

Die Kovarianz gibt das Ausmaß des linearen Zusammenhangs zwischen zwei Variablen wieder. Je größer der Betrag der Kovarianz, umso größer ist der lineare Zusammenhang (positiv oder negativ). Sind zwei Variablen unabhängig, so haben sie eine Kovarianz von 0.

Um eine Standardartisierung der Kovarianz zu erreichen wird sie am Produkt der Streuungen der eingehenden Variablen relativiert.

C_{xy}=\frac{1}{n} \sum_{i=1}^{n} (x_i-\overline{x})\cdot(y_i-\overline{y})

Die Regressionsgerade

Eine Regressionsgerade ist eine Gerade, die sich möglichst gut an eine gegebene Punktemenge anschmiegt. Das heißt, dass die Summe ihrer Varianzen bezüglich der Geraden möglichst gering werden soll. Bei der linearen Regression hat die Regressiongerade die Form y=m\cdot x+b. Eine Anforderung an die Gerade ist, dass sie durch den Schwerpunkt der Punktemenge verläuft. Letztendlich kann man die Regressionsgerade mittels Varianz, Kovarianz und Mittelwerten auch wie folgt berechnen: y=\frac{C_{xy}}{V_x} \cdot (x-\overline{x})+\overline{y}

Aufgabe

  1. Lege vier willkürliche Punkte im Koordinatensystem fest. Bestimme ihren Schwerpunkt und lege durch diesen eine Gerade, so dass diese möglichst nahe an den vier Punkten vorbei führt.
  2. Konstruiere für jeden Punkt ein Quadrat mit dem Punkt als eine Ecke und dessen zweite Ecke auf der Geraden liegt. (Tipp: Die Quadratseiten verlaufen parallel zu den Koordinatenachsen). Bewege die Gerade und bestimme erneut die bestmögliche Lage. Die kleinste Summe der Quadrate bestimmt die Lage der besten Geraden, der sogenannten Regressionsgeraden.
  3. Bestimme die Gleichung der Regressionsgeraden mittels der Kovarianz.
  4. Zusatz: Suche in Geogebra nach Befehlen, die einzelne Arbeitsschritte erleichtern oder direkt zur Lösung führen.

Didaktische Analyse

Durch das schrittweise Annähern an die Gleichung der Regressionsgeraden wird den SuS bewusst gemacht, was für komplexe Rechnungen und Abhängigkeiten von unterschiedlichen Faktoren in der Mathematik vorhanden sind. Sie bemerken Rechenleistungen des Computers, welcher sie sich beim einfachen eintippen und berechnen wahrscheinlich nicht im klaren sind. Durch die Auseinandersetzung mit den einzelnen notwendigen Schritten verstehen die SuS auch besser, was alles berechnet wird. Der Einsatz einer dynamischen Geometriesoftware ist hier sehr sinnvoll, da sie viele Schritte erleichtert, Fehler verzeiht und die Anschaulichkeit fördert. Trotzdem sind die SuS noch gefordert genug, müssen sich Gedanken machen und die Lösung fällt nicht vom Himmel.