Boxplots

aus ZUM-Wiki, dem Wiki für Lehr- und Lerninhalte auf ZUM.de
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Der Boxplot

Bedeutung

Ein Boxplot ist ein Diagramm, das zur grafischen Darstellung der Verteilung statistischer kardinalskalierter Daten verwendet wird. In dieser Darstellungsform der statistischen Datenanalyse werden viele statistische Größen (bspw. Median, Quartile, Extrema, Ausreißer) auf einen Blick deutlich. Der Boxplot bietet somit einen direkten Verteilungsüberblick und eignet sich insbesondere für den Vergleich mit Verteilungen anderer Datenreihen. Dabei wird sowohl die Lage durch einen Zahlenstrahl als auch die Streuung durch den Interquartilsabstand und die Spannweite der Werte veranschaulicht.

Aufbau

Boxplot.jpg

Die Box des Boxplots wird durch das obere und untere Quartil begrenzt und in ihrem Inneren befindet sich der Median. Dieser wird in Form eines durchgehenden Striches in der Box dargestellt. An das so entstandene Rechteck der Box schließen sich auf beiden Seiten die sogenannten Whisker an. Sie werden in Form eines Strichs vom Rand der Box bis hin zu dem kleinsten bzw. größten Wert des Datensatzes in das Diagramm eingezeichnet. Manchmal wird auch das arithmetische Mittel als Stern oder Punkt mit in den Boxplot aufgenommmen. Dieses muss aber nicht zwangsweise in der Box liegen. Ausreißer werden als Kreise am Rand der Whisker gezeichnet um diese deutlich von anderen Werten abzuheben. Als Ausreißer wird ein solcher Wert bezeichnet, der die Länge des Whiskers auf mehr als das 1.5-fache der Länge der Box vergrößern würde.


Um ein Boxplot-Diagramm zu erstellen, benötigt man die folgenden statistischen Werte:

Den Median, der Wert, der die Datenreihe in zwei Teile gleicher Datenpunktsanzahl teilt.

Das Maximum und das Minimum, größter und kleinster Wert der vorliegenden Datenverteilung.

Das obere und das untere Quartil, Mediane der unteren bzw. oberen Datenhälfte.

ggf. das arithmetisches Mittel, der Durchschnittswert.


Die Bestimmung der Quartile ist bei einer geraden Datenanzahl unproblematisch. Die Daten werden in zwei Hälften geteilt, man bestimmt jeweils deren Median und erhält auf diese Weise das untere und obere Quartil. Liegt jedoch eine ungerade Anzahl an Daten vor, muss nochmals eine Fallunterscheidung vorgenommen werden. Bleibt bei der Vierteilung der Daten ein Rest von 1 zurück, so wird der Median zu beiden Hälften dazu genommen um dann die Quartile zu bestimmen. Bleibt ein Rest in Höhe von 3, wird der Median bei beiden Datenhälften zur Bestimmung der Quartile außer Acht gelassen.

Der Interquartilsabstand, d.h. der Abstand zwischen dem oberen und dem unteren Quartil, ist im Gegensatz zu der Spannweite, dem Abstand zwischen Maximum und Minimum, ein sehr robustes Streuungsmaß, da beide Quartile nicht von Ausreißen beeinflusst werden.

Für die Erstellung eines Boxplots wird im folgenden TI-Nspire benutzt. Die nachfolgenden Beispielaufgaben enthalten eine schrittweise Konstruktionsanweisung. Der Erstellung eines Boxplots mit Excel mangelt es an intuitiver Bedienung, weshalb darauf verzichtet werden soll. Anleitungen und Add-ins für Excel befinden sich hier.

Beispielaufgabe 1

Paul bestellt abends oft beim Pizza-Blitz eine Salami-Pizza und notiert sich jedes Mal die Zeit zwischen Bestellung und Lieferung der Pizza:

25, 24, 36, 34, 38, 37, 30, 25, 29, 33, 36, 35, 38, 27, 29, 31


Aufgabe: Zeichne den dazugehörigen Boxplot!


1.Schritt: Sortieren der Daten

24, 25, 25, 27, 29, 29, 30, 31, 33, 34, 35, 36, 36, 37, 38, 38

2. Schritt: Median bestimmten

24, 25, 25, 27, 29, 29, 30, 31, 33, 34, 35, 36, 36, 37, 38, 38 \rightarrow Median = 32

3. Schritt: oberes und unteres Quartil bestimmen

24, 25, 25, 27, 29, 29, 30, 31 \rightarrow unteres Quartil = 28

33, 34, 35, 36, 36, 37, 38, 38 \rightarrow oberes Quartil = 36

4.Schritt: Boxplot zeichnen

Boxplotbsp1.png


Stift.gif   Aufgabe

Zeichne den dazugehörigen Boxplot mir Hilfe des TI-nspire CAS


1. Schritt: Trage die Daten in eine Tabelle (lists&spreadsheet) ein und benenne diese "zeit"

2. Schritt: Öffne eine neue data&statistics-Seite

3. Schritt Klicke mit der Maus auf "Zum Hinzufügen der Variablen" und wähle die Liste "zeit" aus

4.Schritt Klicke "ctrl" und "menu" und ändere den Graphtypen auf "Box Plot"


Datei:Aufgabe Boxplot.tns

Beispielaufgabe 2

Die Schülerinnen und Schüler führen eine Befragung zur Höhe des Taschengeldes in drei benachbarten Orten durch. Dabei kommen folgende Datensätze heraus:


Ort A: 5 10 15 20 35 20 45 30 25 20 10 10 20 10 5 15 20 10

Ort B: 15 0 10 5 5 25 30 40 30 15 25 50

Ort C: 5 10 20 25 20 10 25 20 25 30 20 25


Aufgabe: Zeichne die dazugehörigen Boxplots und vergleiche sie!


Boxplots vergleichen.png

Ergebnis eines Vergleichs

Wie durch die beiden Beispielaufgaben klar geworden sein dürfte, bieten sich viele verschiedene Datenreihen für Boxplots an. Im folgenden sollen die Schuhgrößen von Basketballspielern und Models mit denen der Teilnehmer aus dem Seminar verglichen werden. Als (nicht repräsentative!) Grundlage der Daten dienen die selbst angegebenen Schuhgrößen von Basketballspieler in einem Forum und die von fashionmodeldirectory zusammengetragene Statistik. Analog zu obiger Anleitung wurden mit TI-Nspire die zugehörigen 3 Boxplots erstellt: Vergleich Boxplots.jpg

Durch einen direkten Vergleich lassen sich viele Eigenschaften direkt ablesen und andere Interpretationen wagen.

Als allererstes wird deutlich, dass Basketballspieler mehrheitlich große Füße und Models eher kleine Füße haben. Die Seminarteilnehmer bilden eine gute Mischung aus den beiden anderen Parteien. Die Mediane liegen genau wie beide Quartile und die Maxima in der selben Staffelung vor. Bei Basketballspielern ist die Streuung, welche durch den Interquartilsabstand angezeigt wird, größer als bei den anderen beiden Gruppen, was auch durch die Spannweite der Datenreihe klar wird. Dies könnte daran liegen, dass im Forum unterschiedlichste Altersgruppen ihre Schuhgröße preisgegeben haben, während die Seminarteilnehmer und auch die Models mehrheitlich in eine Altersgruppe fielen. Der Ausreißer nach unten im Boxplot der Basketballspieler könnte auf eine noch junge Spielerin hindeuten. Die Tatsache, dass die Mediane in den Boxen der Seminarteilnehmer und der Basketballspieler nicht so mittig liegen wie bei den Models zeigt auch, dass z.B. Basketballspieler besonders häufig Schuhgrößen zwischen 47 und 47.5 haben.

Außerdem kann es sein, dass Models bevorzugt mit kleinen Schuhgrößen gebucht werden und Basketballspieler mit großen Füßen als besonders sprungkräftig gelten, weshalb diese Statistik zu Verfälschung neigt.

Handlungsorientiertes Schülerexperiment

Man stellt an der Tafel eine Liste der Schuhgrößen aller Schülerinnen und Schüler der Klasse zusammen und markiert auf dem Klassenfußboden eine Skala entsprechend der Größen der Datenerhebung.

Dann stellen sich die Schülerinnnen und Schüler zu der ihrer Schuhgröße entsprechenden Skalenmarkierung.

Als nächstes sollen der Median und die Quartile von der Klasse durch Abzählen ermittelt werde. Sind die Werte ermittelt, werden den Schülerinnen oder Schülern mit der entsprechenden Schuhgröße ein Schild in die Hand gegeben mit der Aufschrift "Median", "unteres Quartil" und "oberes Quartil", so dass man die Grenzen des menschlichen Box Plots abgesteckt hat.

Um den Box Plot noch zu verdeutlichen, wickelt man ein rot-weißes Absperrband vom unteren Quartil zum oberen Quartil und zurück und veranschaulicht dich Whisker ebenfalls durch dieses Band, indem man die so enstandene Box noch mit dem kleinsten und dem größten auftretenden Wert verknüpft.

FotoBoxplot2.jpg

Möglichkeiten der Einführung

  • Problemorientiert

Nachdem der Median eingeführt wurde tritt das Problem auf, dass 2 Datenreihen mit gleichem Median deutlich unterschiedlich ausfallen können. Daraufhin wird ein Maß für die Streuung gesucht und im Interquartilsabstand gefunden. Eine grafische Darstellung der Datenreihe mit den neuen Informationen wird in Form eines Boxplots gefunden. Dies ist zumeist die Herangehensweise in den statistischen Wissenschaften.

  • Vergleichend

Boxplots als neues Diagramm mit anderen Diagrammen (insbesondere Säulendiagrammen) vergleichen und Vorteile herausarbeiten. In gängigen Schulbüchern z.B. Lambacher Schweizer, Klasse 6 die bevorzugte Didaktik. Es fällt auf, dass bereits in Klasse 6 der Begriff Boxplot auftaucht, trotz dass der Kernlehrplan NRW's dieses Thema erst für die 8. Jahrgangsstufe vorsieht.[1]

  • Interaktiv

Das Schülerexperiment aus dem vorigem Abschnitt kann auch als Einführung dienen.