Statistik 1

aus ZUM-Wiki, dem Wiki für Lehr- und Lerninhalte auf ZUM.de
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Deskriptive Statistik

Grundbegriffe

Ziel der deskriptiven Statistik: Erhebung und Aufbereitung von Daten im Rahmen von Erhebungen.

Erhoben werden Merkmale. Diese lassen sich in qualitative und quantitative unterscheiden. Letztere lassen sich nochmal in stetige und diskrete differenzieren.

Als Merkmalsausprägungen bezeichnet man alle möglichen Werte eines Merkmals.

Als Merkmalsträger bezeichnet man ein für die Erhebung der Daten relevanten Objekte.


Durch Quantifizierung kann ein qualitatives Merkmal in ein quantitatives umwandelt werden. Z.B. in dem man die verbalen Ausdrücke durch Zahlen aussdrückt.

Skalierung

(ist wichtig bei quantitativen Merkmalen)


Nominalskala: die zugeordneten Zahlen dienen lediglich zur Unterscheidung der Merkmalsausprägungen (die Zahlen haben nicht einen Wert, daher können sie auch nicht in eine Reihenfolge gebracht werden)

Bedingungen:

  • Reflexivität
   Formal geschrieben: a = a.
  • Symmetrie
     Wenn a = b, dann ist b = a.
  • Transitivität
     Wenn a = b und b = c, dann ist a = c. 

Beispiel Steuerklassen I, II, ..., V.


Ordinalskala, Rangskala: die Merkmalsausprägungen werden zueinander in einer Rangfolge in Beziehung gesetzt (der Rang wiederspiegelt die Messwerte)

Bedingungen: (Die Bedingungen von der Nominalskale gelten hier weiterhin)

  • Konnexivität
   Es gilt entweder a größer b, oder b größer a, oder a gleich b.
  • Transitivität
   Wenn a größer b und b größer c, dann muss a größer c gelten. 

Beispiel Schadstoffklassen 1, 2, 3, 4.


Kardinalskala: zusätzlich zur Rangfolge spielt auch noch der Abstand zwischen zwei Merkmalsausprägungen eine Rolle (Kann man noch in Intervallskala, Verhältnisskala, Absolutskala unterteilen)

Beispiele Temperatur, Einkommen.


Hierfür bau ich noch ein Bild

Klassierung

Ein stetig verteiltes Merkmal kann durch Aufteilung in diskrete Merkmale unterteilt werden.

Beispiel Körpergröße in cm-Klassen

1. < 160 cm

2. 160 . . . 169 cm

3. 170 . . . 179 cm

4. 180 . . . 189 cm

5. 190 . . . 199 cm

6. > 200 cm


3 Verschieden Arten der Datenerhebung:

• Befragung (z. B. Umfrage, Volkszählung)

• Beobachtung (z. B. Verkehrszählung, Messung,...)

• Experiment (Messung im “physikalischen” Experiment)


Wenn man nur eine Teilerhebung macht, ist die Stichprobenauswahl entscheident. Hier kann man nach willkür auswählen oder Stichprobentechniken anwenden.

Beispiel Quotenauswahl : Hier wird die Stichprobe so genommen dass die relative Häfigkeit in der Teilerhebung gleich der relativen Häfigkeit der Grundgesamtheit ist.

Auswertung eindimensionaler Datensätze

Das Ergebnis einer statistischen Erhebung bezeichnet man als Urliste, Stichprobe der Länge n, Messreihe, Messwerte oder Beobachtungswerte.


Absolute und relative Häufigkeit

Die Anzahl der Merkmalswerte die mit a_j übereinstimmen heißt absolute Häufigkeit.

absolute Häufigkeit = h(a_j)\,
\sum_{j=1}^{n} h(a_j)= n


Teilt man die durch die Gesamtzahl n der erhobenen Merkmalswerte, so spricht man von der relativen Häufigkeit.

relative Häufigkeit = f(a_j)=\frac{h(a_j)}{n} 
\sum_{j=1}^{n} f(a_j) = 1


Beispiel: 1000 Leute werden befragt welche Fremdsprache sie am besten beherschen.


700 antworten Englisch

100 antworten Französisch

200 antworten sonstiges


Damit beträgt die absolute Häufigkeit für Englisch 700 und die relative beträgt 0,7. Wie man unschwer ewrkennt, ist die Summe der relativen Häufigkeiten = 1 und die Summe der absoluten = 1000 (n).

Graphische Darstellung der Häufigkeitsverteilung

Um die Ergebnisse einer Erhebung graphisch darzustellen, gibt es mehrere Möglichkeiten:

Tabellen, Stabdiagramme und Histogramme, Kreisdiagramme.


Häufigkeitstabelle

Bei einer Häufigkeitstabellen trägt man das Merkmal a_j, die relative und die absolute Häufigkeit ein.

Stabdiagramme und Klassierung

Bei Stabdiagrammen haben alle Stäbe die gleiche Breite. Es spielt nur der Höhenwert eine Rolle. Im Gegensatz dazu gibt es die Histogramme, bei denen auch die Breite der Säule eine Rolle spielt.Stabdiagramme sinnlos, da man unendlich viele Merkmalsausprägungen, aber nur endlich viele Werte. Dadurch werden die meisten Werte einfach oder gar nicht besetzt.


Abhilfe bietet hierfür die Klassierung. Man fasst ein Interval von Merkmalen zu einer Klasse zusammen und kann so, deutlich besser die Ergebnisse graphisch darstellen. Man läuft allerdings Gefahr, zuviele oder zu wenige Klassen zu wählen. Bei zuwenigen gehen Informationen verloren, bei zu vielen, bleiben zuviele Klassen unbesetzt.

Deshalb wählt man für die Anzahl der Klassen als Faustregel \sqrt n.


Bei Klassen bezeichnet man die anzahl der Merkmalswerte in der Klasse als Klassenhäufigkeit oder auch Besetzungszahl K_j\,.

Als relative Klassenhäufigkeit bezeichnet man den Quotienten: k_j := \frac{K_j}{n}


Wenn Klassen unterschiedlich viele Merkmale zusammenfassen, benutzt man Histogramme zur veranschaulichung.


Kummulierte Verteilungsfunktion oder auch empirische Verteilungsfunktion

Eine weitere Möglichkeit die Ergebnisse darzustellen ist der Graph der Kummulierten Häufigkeitsverteilung.

H(x) := \sum_{a_j \le x}^{} h(a_j) ist die absolute kummulierte Häufigkitsverteilung.
F(x) := \frac{1}{n} H(x) ist die relative Häufigkeitsverteilung (empirische Verteilungsfunktion)


Die empirische Verteilungsfunktion hat folgende Eigenschaften:

F ist monoton wachsend und nimmt Werte zwischen 0 und 1 an. Außerdem besitzt F an den Merkmalsausprägungen a_j Sprünge

Lagemaße

Um eindimensionale Datensätze zu charackterisieren, gibt es Lage- und Verteilungsmaße.

Modalwert

Als Modalwert x_{Mod} bezeicnet man diejenige Ausprägung a_j mit der größten Häufigkeit. Beispielsweise ein Stabdiagramm auf der die Fremdsprachenkenntnisse eingetragen sind. Die Fremdsprache, die am meiszen gesprochen wird (nehmen wir mal an es sei Englsich) ist dann der Modalwert (Modus). Also x_{Mod} = Englisch.

Median

Als Median bezeichnet man denjenigen Merkmalswert (x_{Med}), für den 50% der Merkmalswerte größer gleich x_{Med} und 50% der Merkmalswerte kleiner gleich x_{Med} sind.


Um diesen x-Wert zu bestimmen erstellt man aus den n Merkmalswerten eine geordnete Urliste. x_{Med} ist dann:

x_{\frac{n+1}{2}} falls n ungrade
\frac{1}{2} \left( x_{\frac{n}{2}}+ x_{\frac{n}{2}+1}\right) falls n ungrade
Arithmetisches Mittel

Physikalisch gesehen ist der arithmetische Mittelwert (\bar x) der Schwerpunkt. Er berechnet sich folgendermaßen:

\bar {x} := \frac{1}{n} \sum_{i=1}^{n} x_i = \sum_{j=1}^{n} a_j f(a_j) 


Anmerkungen

  • In der Regel nehmen arithmetisches Mittel und Median keine diskreten Werte an.
  • Transformiert man arithmetisches Mittel, Median und Modalwert linear mit: y_i = a + b x_i, so ergibt sich für die Lagemaße:
Y_{mod} = a + b x_{mod}\,
\bar y = a + b \bar x usw.
  • Optimalitätseigenschaften. Das arithmetische Mittel minimiert die Summe der quadratischen Abstände. Mit anderen Worten: der Wert der Summe ist, wenn r \neq \bar x, immer größer als die Summe mit \bar x:
\sum_{x=1}^{n} \left( x_i - \bar x \right)^2 < \sum_{x=1}^{n}  \left( x_i - r\right)^2
Quantille und Box-Plots

Ein Quantill ist ein Wert x_p mit 0 < p < 1, für den mindestens ein Anteil von p kleiner gleich x_p ist und ein Anteil 1-p größer gleich x_p ist.

x_p = x_{np + 1}\, wenn np nicht ganzzahlig ist.
x_p \in \left[ x_{np}, x_{np+1} \right] wenn np ganzzalig ist.


Beispiel

x_{0,25}. 25% der Werte sind kleiner und 75% der Werte sind größer als x_{0,25}


Box-Plots sind eine weitere Möglichkeit die Ergebnisse einer Erhebung dazustellen. Sie geben neben der Lage der Daten auch einen Eindruck über die Streuung.

Um den Box-Plot zu erstellen, berechnet man die x_{0,25} Qaurtile (unteres) und die x_{0,75} Quartile (oberes). Also denjenigen Messwert, für den 25% bzw. 75% kleiner sind.


Modifikation Die Länge der Whiskers kann variieren. Eine gängige Variantion für die Länge ist:

für die untere:\max \lbrace x_{0,25} - 1,5 * d_Q, x_{min} \rbrace \, bis x_{o,25}\,
für die obere:x_{0,75}\, bis  \min \lbrace x_{0,75} + 1,5 * d_Q, x_{max} \rbrace \,

Werte die drunter oder drüber liegen, bezeichnet man als Ausreißer und werden i. a. als Punkte kenntloich gemacht.

Bemerkungen zum Lagemaß

Lagemaße die nicht empfindlich auf Extremwerte oder Außreißer reagieren heißen robust. Im Skript auf Seite 8 verändert sich der Median durch die Veränderung des einen Wertes nicht. Der Median ist also robust.

Streumaße

Neben den Lagemaßen führen wir nun eine weitere Kenngröße ein. Die Box-Plots haben bereits nicht nur einen Eindruck über die Lage sondern auch über die Streuung der Daten gegeben.


Bekannteste Streuungsmaß ist die empirische Varianz oder auch mittlere quadratische Abweichung:

 s^2 = \frac{1}{n}\sum_{i=1}^{n} \left( x_i - \bar x \right)^2 = \sum_{j=1}^{s} \left(a_j - \bar x \right)^2 \cdot f(a_j)

Eigenschaften

  • Transformationsregel:
Wenn Daten folgendermaßen transformiert werden:y_i = a + bx_i, so wird die empirische Varianz folgendermaßen transformiert:s_y^2 = b^2 s_x^2
  • Verschiebungssatz:
verschiebt man alle Messwerte um a, so bleibt die empirische Varianz gleich.


Daraus leitet sich die Standartabweichung ab:

s = \sqrt{\frac{1}{n}\sum_{i=1}^{n} \left( x_i - \bar x \right)^2 }

Für K \ge 1 liegen mindestens 100 \cdot \left( 1- \frac {1}{K^2}\right) der Messwerte x_1, ...x_n im Intervall \left[ \bar x - k s, \bar x + ks \right]\,


Eine weitere ist die Stichprobenvarianz, die bei der induktiven Statistik verwendet wird.

 s^2 = \frac{1}{n-1}\sum_{i=1}^{n} \left( x_i - \bar x \right)^2

Konzentrationsmaße

Ein weiteres Charakteristikum ist die Konzentration, also wie die Daten über die Ausprägungsmenge verteilt ist.

Ein Möglichkeit die Konzentration darzustellen ist die Lorenzkurve. Dies geht allerdings nur bei kardinalskalierten, nichtnegative Merkmalsausprägungen. Diese ordnet man dann der der größe nach Aufsteigend an.

Dadurch ergeben sich die Werte der Lorenzkurve:

v_k := \frac{\sum_{i=1}^{k} x_i }{\sum_{i=1}^{n} x_i } 

Trägt man diese Werte in einen Graphen ein ergibt sich die Lorenzkurve. Eine Lorenzkurve ist immer monotonwachsend und konvex. Je stärker die Kurve von der Winkelhalbierenden abweicht, desto ungleichmäßiger ist die Konzentration.

Der Gini-Koeffizient

Der Gini-Koeffizient ist ein wertmäßiges Maß für die Gleichheit der Konzentration und ist folgendermaßen definiert:

G = \frac{2}{n} \frac{\sum_{i=1}^{n} i \cdot x_i }{\sum_{i=1}^{n} x_i} -\frac{n+1}{n} 

In Worten Beschrieben ist der Gini-Koeffizient die Fläche zwischen Diagonale und Lorenzkurve geteilt durch die Fläche unterhalb der Diagonale

oder 2 * Fläche zwischen Diagonalen und Lorenzkure


Die Winkelhalbierende geht von (0,0) bis (1,1).

Auswertung zwei- und mehrdimensionaler Messreihen

Zweidimensionale Messreihen

Die Urliste besteht aus Wertepaaren. Typische Aufgabe ist die Abhängigkeit/Unabhängigkeit der Merkmale festzustellen.


Kontingnztabelle

Die Kontingenztabelle ist eine Art der Darstellung mehrdimensionaler Messreihen. Diese Darstellungsform eignet sich besonders für nominalskalierte Merkmale.

Ausprägungen von Y
Ausprägungen von X b_1........b_l
a_1

.

.

a_k

h_{11}........h_{1l}

........

........

h_{k1}........h_{kl}

Dabei steht h_{ij} für die absolute Häufigkeit der Wertepaare (a_i , b_j)

Die relative Häufigkeit ist dann: f_{ij} = \frac{h_{ij}}{n}

Für die abolute Häufigkeit einer Merkmalsausprägung a_i addiert man die Einträge der Zeile. Für b analog die Einträge der Spalte. Diese Hufigkeiten bezeichnet man als Randhäufigkeiten.


Um nun die Abhängigkeit der Merkmal zu untersuchen, stellt man zunächst bedingten relativen Häufigkeiten auf:

f_X(a_i|b_j) := \frac{h_{ij}}{h_{\cdot j}} 
f_Y(b_j|a_i) := \frac{h_{ij}}{h_{i \cdot}} 


Sind die Merkmale unabhängig voneinander, so gilt:

f_X(a_i|b_{j1} = f_X(a_i|b_{j2})\,

h_{ij1} \cdot h_{\cdot j1} =  h_{ij2} \cdot h_{\cdot j2}

Wenn bekannt ist, dass die zwei Merkmale unabhängig sind, so lässt sich also die gemeinsamen Häufigkeit aus der obrigen Gleichung bestimmt.


Für die bedingten relativen Häufigkeiten folgt aus:


f_X(a_i|b_j) := \frac{h_{ij}}{h_{\cdot j}} = \frac{h_{i \cdot}}{n}
f_Y(b_j|a_i) := \frac{h_{ij}}{h_{i \cdot}} = \frac{h_{\cdot j}}{n}

, da

\tilde{h}_{ij} = \frac{h_{\cdot i} h_{j \cdot}}{n}


Der Kontingenzkoeffizient

Quantitativ lässt sich die Abhängigkeit zweier Merkmale durch den Chi-Quadrat-Koeffizient ausdrücken:

\chi^2 = \sum_{i=1}^{k} \sum_{j=1}^{l} \frac{(h_{ij}- \tilde{h}_{ij})^2}{\tilde{h}_{ij}}


0 steht für Unabhängigkeit. Je kleiner Chi ist, umso unabhängiger sind die beiden Merkmale. Um einen quantitativen Wert für die Abhängigkeit zu bekommen, der unabhängig von der Kontingenztafel ist, führt man den Kontingenzkoeffizient ein:

K = \sqrt{\frac{\chi^2}{n + \chi^2} } 

K nimmt Werte zwischen 0 und K_{max} = \sqrt{\frac{M}{n + M} } mit min \lbrace{k,l}\rbrace \,

K normiert ist dann:

K_* = \frac{K}{K_{max}}

Streuungsdiagramm

Bei mehrdimensionalen Messreihen, lassen sich die Messpaare als Punkte einer Ebene auffassen. So erhält man dann ein Streuungsdiagramm. Dies nützt allerdings nur bei kardinalskalierten Wertepaaren etwas.

Bei Wertepaaren stellt sich natürlich die Frage, in wie weite das eine Merkmal vom anderen abhängt. Beeinflusst das eine Merkmal das andere Kausal, so spricht man von der Korreliertheit der Merkmale.


Korrelationskoeffizienten

Ein Maß für die Korrelation ist der empirische Korrelationskoeffizient:

r_{XY}= \frac{S_{XY}}{S_X \cdot S_Y} 

Mit:

S_{XY}= \frac{1}{n} \sum_{i=1}^{n} \left( x_i - \bar x \right) \left( y_i - \bar y \right)

S_X = \sqrt{ \frac{1}{n} \sum_{i=1}^{n} \left( x_i - \bar x \right)}

S_Y\, analog zu S_X\,


Der empirische Korrelationskoeffizient hat flogende Eigenschaften:

r_{XY}=+1 ; -1 bedeutet eine Korreliertheit der Merkmale. r_{XY}=0 bedeutet dass X und Y Unkorreliert sind.

Regressionsrechnung

Sind zwei Merkmale Korreliert, so lässt sich ein Trend bestimmen. Bspw.: Wenn Merkmal X zunimmt, dann nimmt Merkmal Y auch zu.

Dieser Trend lässt sich mit Hilfe einer Gerade darstellen: y = a+ bx, man muss die Koeffiziente a und b so wählen, dass die Summe der quadratischen Abstände zu den Beobachtungswerten minimiert wird.

Dazu wählt man:

b = \frac{S_{XY}}{S^2_{X}} 
a = \bar y - b \bar x

Man sollte hier aber beachten, dass wir hier die Summe der quadratischen Abstände der X-Werte minimieren. Man kann auch die Summe der quadratischen Abstände der Y-Werte minimieren, dazu wählt man statt S^2_{X} dann S^2_{Y}.


Die Differenz zwischen der Regressionsgerade und dem Beobachtungswert heißt Residium. Die Summe aller Residium zum quadrat ist:

R^2 = r_{XY}

Dies ist ein Maß für die Güte der Regression

Nichtlineare Regression

Natürlich ist es nicht zwingend, dass ein Zusammenhang zwischen zwei Merkmalen linear sein muss. Es kann genausogut ein funktionaler Zusammenhang bestehen, der durch logarithmieren in einen linearen Zusammenhang zurückgeführt werden kann.


Wahrscheinlichkeitsrechnung

Zufallsexperimiente und Wahrscheinlichkeitsräume

Zunächst ein paar Definitionen und Vereinbarungen:

Zufallsexperimeint = zeitlich wie örtlich fest umrissenen Vorgang und unbestimmten Ausgang. Bsp.: Würfeln

Als Ergebnismenge/Stichprobenraum \Omega bezeichnet man die Gesamtheit aller möglichen Ausgänge des Zufallsexperiments. \Omega ist ein Tupel.

 |\Omega | ist die Mächtigkeit der Menge und gibt die Anzahl der Elemente in \Omega an.


Man Unterscheidet die Ergebnismenge in endlich/abzählbar endlich/diskret und kontinuierlich.

Ein Ereignis ist damit nichts anderes als eine Teilmenge von \Omega, während Elementarereignisse die einzelnen Elemente von \Omega sind.

Ereignisse

Mengenoperationen lassen sich auch auf mehrere Ereignisse anwenden:

  • A \cup B --> A oder B tritt ein.
  • A \cap B --> A und B treten ein.
  • A^C oder \Omega \ A --> Alles außer A tritt ein

Wahrscheinlichkeitsmaße

Jedem Ereignis wollen wir einen Wert zwischen 1 und 0 zuordnen. Tritt A ein, so ist P(A) = 1 etc. Desweiteren gilt, dass die Wahrscheinlichkeit von disjunkten Ereignissen, also Eignisse, die keine gemeinsamen Teilereignisse besitzen, sich aus der Addition der Teilwahrschinlichkeiten:

P(A \cup B) = P(A) + P(B)

Das bedeutet gleichzeitig:

P(A \cap B) = \varnothing


Rechenregeln:

P(A_1 \cup A_2 ... \cup A_n) = \sum_{k=1}^{n} A_k

P(A^c)= 1-P(A)\,

P(\varnothing ) = 0

A \subset B \, --> P(A) > P(B)\,


Zur Konstruktion von Wahrscheinlichkeitsmaßen definieren wir eine Wahrscheinlichkeitsfunktion:

p : \Omega \rightarrow [0,1]\,

Das Wahrscheinlichkeitsmaß ist ein diskretes Wahrscheinlichkeitsmaß, es ist also nichtnegativ, normiert und additiv.

p(\omega) = P({\omega})\,


Laplacscher Wahrscheinlichkeitsraum

Die Laplace Wahrscheinlichekit ist folgendermaßen definiert:

P(A) = \frac{|A|}{|\Omega|} 

Die Wahrscheinlichkeit für ein Ereignis A ist die Anzahl der Elementarereignisse von A geteilt durch die Anzahl der Ereignisse des Ereignisraums.

Dies ist nur dann richtig, wenn die Annahme gilt, dass alle Wahrscheinlichkeiten gleich verteilt sind.

Dabei unterscheiden wir 4-verschiedene Fälle, deren Ereignismenge so berechnet wird:

  • in Reihenfolge mit zurücklegen:
n^k \,
  • in Reihenfolge ohne zurücklegen:
\frac{n!}{(n-k)!} 
  • ohne Reihenfolge ohne zurücklegen
\binom n k
  • ohne Reihenfolge mit zurücklegen
\binom {n+k-1} {k}


Dabei ist n in der Regel die Anzahl der "Kugeln" und k wie oft das Zufallsexperiment ausgeführt wird.


Bedingte Wahrscheinlichkeiten und Unabhängigkeit

Unter einer bedingten Wahrscheinlichkeit versteht man, eine Wahrscheinlichkeit unter der Bedingung, dass bereits Teilinformationen bekannt sind:

Beispiel:

P(Augensumme > 10) = 1/12

Nimmt man aber an, dass bereits ein Würfel eine 6 zeigt, so ist die Wahrscheinlichkeit, dass die Augensumme größer als 10 ist, unter der Bedingung, dass ein Würfel schon eine 6 zeigt:

P(Augensumme > 10|erster Würfel zeigt 6 ) = 1/3


Allgemein:

Die bedingte Wahrscheinlichkeit A unter der Bedingung B (Bedingte Wahrscheinlichkeit von A gegeben B):
P(A|B) = \frac{P(A \cap B)}{P(B)} 

Auch diese Wahrscheinlichkeit befindet sich zwischen 0 und 1. Ist A eine leere Menge, so ist die bedingte Wahrscheinlichkeit = 0.

Auch die bedingte Wahrscheinlichkeit ist eine diskrete Wahrscheinlichkeitsverteilung.


Sind nur die bedingten Wahrscheinlichkeiten und Wahrscheinlichkeit des bedingenden Ereignisses bekannt, so berechnet sich die totale Wahrscheinlichkeit so:

P(A) = \sum_{k=1}^{n} P(A|B_k) P(B_k)


Wir haben die ganze Zeit bedingte Wahrscheinlichkeiten der Form P(A|B) gehabt. Im Skript gab es dazu ein Beispiel, indem die Wahrscheinlichkeit eines Unfalls in Abhängigkeit von Geschlecht berechnet werden sollte. Dazu rechnete man:</math> P(Unfall|Mann). Dabei ist der Mann die Ursache und der Unfall das Ereignis. Oft interessiert uns aber genau der umgekehrte Zusammenhang, nämlich: P(Mann|Unfall). Also statt der Wahrscheinlichkeit, dass ein Mann einen Unfall hat, wollen wir wissen, welchen Anteil die Männer an allen Unfällen haben. Für solche Umkehrungen benutzen wir den Satz von Bayes:

P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{k=1}^{n} P(A|B_k)P(B_k) } = \frac{P(A|B_i)P(B_i)}{P(B)}


Unter der Unabhängigkeit zweier Ereignisse versteht man, dass der Ausgang des einen Ereignisses nicht vom Ausgang des anderen abhängt. Beispielsweise ist der Ausgang des zweiten Würfelwurfs unabhängig vom Ergebnis des ersten Wurfes.

P(A) = P(A|B) = \frac{P(A \cap B)}{P(B)} \rightarrow P(A \cap B) = P(A) P(B) 

Wichtig ist, dass man bei Zufallsexperimenten mit mehr als zwei Ereignissen nicht nur die paarweise Unabhängigkeit testet, sondern auch die Unabhängigkeit aller Ereignisse.

Zufallsvariablenund Verteilung

Eine Zuordnung oder auch Abbildung, die jedem Ausgang eines Zufallsexperimentes eine reelle Zahl zumisst, nennt man Zufallsgröße oder auch Zufallsvariable. Man "übersetzt" im Grunde ein Ereignis, um so weiter mit ihm rechnen zu können.

Als Beispiel dafür soll wieder das zweimalige würfeln dienen. Unsere zufallsvariable X = Augensumme. X nimmt Werte zwischen 2 und 12 an, die aber unterschiedliche Wahrscheinlichkeiten besitzen. Daher ordnet die Wahrscheinlichkeitsfunktion ihnen Wahrscheinlichkeiten zu:

px(2) = px(12) = 1/36 px(3) = px(11) = 1/18 ...

px(x) := P(X=x)\,

Zur Verabschaulichung kann man ein Stabdiagramm benutzen, bei dem auf der x-Achse ide Zufallsvariable eingetragen ist und auf der y-Achse die Wahrscheinlichkeit die zugeordnet wird.


Die Verteilungsfunktion einer Zufallsvariable

Die Funktion:

F(x) := P(X \le x)

heißt Verteilungsfunktion von X. Diese Verteilungsfunktion ist monoton wachsend, 0 \le F \le 1 und rechtsseitig stetig.


Unabhängigkeit von Zufallsvariablen

Zufallsvariablen sind genau dann Unabhängig, wenn die zugehörigen Ereignisse stochatisch unabhängig sind:

P(X_1 = x_1, X_2 = x_2,...,X_n = x_n)= P(X_1 = x_1)  P(X_2 = x_2)... P(X_n = x_n)\,


Spezielle Verteilungen

Bernoulli Vertielung

X(w) = 1 falls w in A, sonst = 0.

Wir interpretieren 1 als Erfolg und 0 Misserfolg. Dem Ereignis 1 ordnen wir die Wahrscheinlichkeit p zu, der 0 die Wahrscheinlichkeit 1-p.

Die Wahrscheinlichkeitsfunktion lautet damit: p: \lbrace 0,1 \rbrace \rightarrow [0,1]

Ein so definiertes Wahrscheinlichkeitsmaß heißt Bernoulliverteilung zu p. Es kennt nur zwei Ausgänge, Erfolg und Misserfolg und die Wahrscheinlichkeit bleibt jedes mal gleich.

Binomialverteilung

Wir nehmen nun an, wir hätten X_1, X_2,...,X_n, die alle Bernoulliverteilt sind. X_1 ist dann der positive Ausgang eines Bernoulliexperiments mit der Wahrscheinlichkeit p. Bei n Zufallsexperimenten ist die Zufallsvariable dann:

S_n = X_1 + X_2 + ... + X_n udn gibt die Anzahl der Erfolge an. Für die Verteilung P_{S_n} der Summe S_n ist dann:

p_{S_n} = P(S= k ) = \binom {n} {k} \cdot p^k \cdot (1-p)^{n-k} = b(n,k,p)

Eine so definierte Verteilung bezeichnet man als Binomialverteilung.


Geometrische Verteilung

Die geometrische Verteilung ist eine Sonderform der Bernoulliverteilung. Gefragt ist nach der Warhscheinlichkeit, erst nach k versuchen eine Erfolg zu haben.

Das Ereignis kann mit Zufallsvariablen wie folgt beschrieben werden:

A_k = \lbrace X_1 = 0, X_2 = 0 ,..., X_k = 1 \rbrace

Damit ist:

P(A_k) = \left( 1-p\right)^{k-1} \cdot p 


Poissonverteilung

Bei der Poissonverteilung unterscheidet man bei den Zufallsvariabln auch nur zwischen Erfolg und Misserfolg. Aus der Reihenentwicklung der Expotentialfunktion ergibt sich damit für die Wahrscheinlichkeit von k Erfolgen:

P(S_n = k ) = e^{-\lambda} \cdot \frac{\lambda ^k}{k!} 

Ein so definiertes Wahrscheinlichkeitsmaß bezeichnet man als Poissonverteilung zu \lambda.

\lambda = np

Poissonscger Grenzwertsatz

Die Poissonverteilung eignet sich als Annäherung an die Binomialverteilung. Je kleiner np² ist, desto genauer ist die Annäherung. Die Binomialverteilung konvergiert für große n punktweise gegen die Poissonverteilung.


Hypergeometrische Verteilung

Bei der Hypergeometrischen Verteilung gehen wir davon aus, dass wir N Elemente haben, von denen K die Eigenschaft E haben. Aus dieser Menge wird nun n mal gezogen. Unsere Zufallsvariable X gebe die Anzahl der geogenen E an.

P(X=k) \frac{\binom K k \binom {N-K} {n - k}}{\binom N n} = Hyp(n,N,K)\,

Ist n/N sehr klein, so besteht kein Unterschied zwischen ziehen mit und ohne zurücklegen.

P(X = k) \approx b\left( k;n,\frac{K}{N}\right) 

Erwartung und Varianz

Erwartungswert und Varianz sind zwei wichtige Kennzahlen einer Zufallsvariable.

Der Erwartungswert berechnet sich wie folgt:

E(X) = \sum_{w \in \Omega}^{} X(w) \cdot p(w)

Für das rechnen mit dem Erwartungswert gilt die Linearität, Nichtnegativität und Monotonie. Sind X und Y unabhängig, dann:

E(XY) = E(X) \cdot E(Y)

Im Falle der Bernoulliverteilung: E(X) = np

Im Falle der Poissonsverteilung: E(X) = \lambda


Ein Maß für die Streuung um den Erwartungswert herum ist:

Var(X) = E((X - E(X))^2) = \sum_{w \in \Omega}^{n} (X(w) - E(X))^2 \cdot p(w)

Aus der Varianz folgt die Standartabweichung:

s_{X} = \sqrt{Var(X)}

Rechenregeln für die Varianz:

Var(aX + b) = a^2 Var(X)\,
Var(X) = E(X^2) = (E(X))^2\,
Identität von Bienaymé: Var(X+Y+...) = Var(X) + Var(Y) + ...\, , falls X und Y unabhängig sind


Im Falle der Bernoulliverteilung ist die Varianz: np(1-p) Im Falle der Poissonsverteilung ist die Varianz: = \lambda


Kovarianz

Wenn die Varianz von X und Y existieren, so berechnet sich die Kovarianz von X und Y so:

Cov(X,Y) = E((X-E(X))(Y-E(Y)))\,

Wie auch bei zweidimensionalen Messreihen wollen wir einen Korrelationskoeffizienten von zwei Zufallsvariablen definieren:

\varrho (X,Y) = \frac{Cov(X,Y)}{\sqrt{X} \cdot \sqrt{Y} } 


Rechenregeln für die Kovarianz:

Cov((a_X X + b_X), (a_Y Y + b_Y )) = a_X a_Y Cov(X,Y)\,

Cov(X, Y) = E(XY )-E(X)E(Y)\,

Cov(X, Y ) = 0\, falls X und Y unabhängig sind

Stetige Verteilungen

Wir wenden uns nun den stetig verteilten Zufallsfunktionen zu. X kann nun nicht mehr diskret gewählt werden. Stattdessen ist X mit einer Dichte f stetig verteilt. Die Wahrscheinlichkeit berechnet sich dann nach:

P(X\le b) = \int_{- \infty }^{b} f (x)\,dx 

Die von zwei X-Werten eingegrenzte Fläche entspricht also der Wahrscheinlichkeit. Aus dem Integral geht bereits hervor, dass die Wahrscheinlichkeit für ein elementares Ereignis = 0 ist. Für die Dichtefunktion gilt dann: f(x) > 0 und das Integral über R ist =


Stochastische Unabhängigkeit

Die stochastische unabhängigkeit lässt sich direkt auf stetig verteilte Zufallsfunktion übertragen. Zwei Zufallvariablen X und Y heißen stochatisch unabhängig, wenn:

P(X\le a, Y \le b) = P(X\le a) \cdot P(Y\le b)


Erwartungswert, Varianz, Kovarianz

Der Erwartungswert wird definiert als:

E(X) = \int_{-\infty }^{+\infty }X \cdot f(X)\,dx 

Falls das uneigentliche Integral existiert wird, so wird die Varianz definiert als:

Var(X) := \int_{-\infty }^{+\infty} (X - E(X))^2 \cdot f(X)\,dx 

Und die Standartabweichung ist dann:

S_X = \sqrt{Var(X)} 

Die Kovarianz bstimmt man dann durch:

Cov(X):=\int_{-\infty }^{+\infty } \int_{-\infty}^{+\infty} (X - E(X))(Y - E(Y ))f_{XY}(X,Y) dx dy

Wichtige stetige Verteilungen

Gleichverteilung

Ein Zufallsvariable heißt Zufallsverteilt, falls x auf einem Intervall den Kehrwert der Intervalllänge annimmt und sonst null ist.

ERwartungswert für die Gleichverteilung für das Intervall a, b ist:

E(X) := \frac{1}{2} (a+b)

Die Vaarianz gilt:

\frac{1}{12} (b-a)^2


Expotentialverteilung

Die Epotentialverteilung ist nur für x und \lambda > 0 definiert. Dann ist die Verteilung:

f_{\lambda}(x) = \lambda e^{-\lambda x}\,

Die Expotentialverteilung ist das stetige Analogon zur geometrischen Verteilung und wird daher für Warteschlangenbeechnungen benutzt. Ist Eine Zufallsvariable Exp(X) verteilt, so bestimmt man Eerwatungswert und Varianz wie folgt:

E(X) = \frac{1}{\lambda}
Var(X) = \frac{1}{\lambda^2}


Normalverteilung

Die Dichte der Normalverteilung wird so beschrieben:

f_{m,\sigma^2} = \frac{1}{\sqrt{2 \pi} \sigma } \cdot e^{-\frac{(x-m)^2}{2 \sigma^2} }

Im Falle von m=0 und \sigma^2 = 1 spricht man von der Standartnormalverteilung. m bezeichnet das Maximum, sodass jede Normalverteilung in m ihr absolutes Maximum hat und bei m +/- \sigma^2 seine Wendestellen. Diese sind zugleich:

E(X) = m
Var(X) = \sigma^2

Wenn X eine N(m,\sigma^2) verteilte Normalverteilung ist, so ist Y = \frac{X-m}{\sigma} eine Standartnormalverteilung. Leider kann man die Normalverteilung nicht auf den üblichen Wegen integrieren, sodass die Werte der Normalverteilung in einer Tabelle nachgelesen werden müssen.

P(a\le X\le b)= P\left( \frac{a-m}{\sigma} \le Y \le \frac{b-m}{\sigma} \right) = \Phi\left( \frac{b-m}{\sigma} \right) - \Phi\left( \frac{a-m}{\sigma} \right)

Summiert man mehrer Normalverteilungen auf, so ist die Summe noch immer eine Normalverteilung. Der Mittelwert ergibt sich aus der Summe der Mittelwerte und die Varianz aus der Summe der Varianzen.


Konfidenzabschätzug

Eine Messreihe unterliegt zufälligen Mess- und BEobachtungswerten, sodass die Messreihen auch als Zufallsvariablen gedeutet werden können. Für die Verteilung der Messreihe bietet sich in der Regel die Normalverteilung an, wobei man den Mittelwert und die Varianz noch nicht kennt.

Als Mittelwert bietet sich das empirische Mittel und für die Varianz die empirische Varianz.

Wie genau und wie sicher diese Schätzung ist, lässt sich mit den Konfedezabschätzungen bestimmen. Die Wahrscheinlichkeit dafür, dass m in einem Konfedenzintervall \left[ \bar{X} - t\frac{S_X}{\sqrt{n}} , \bar{X} + t\frac{S_X}{\sqrt{n}} \right] beträgt:

P\left( |\bar{X} - m| \le  t\frac{S_X}{\sqrt{n}}\right)

Als Faustregel lässt sich merken, dass ab einer Stichprobengröße von 30 eine Normalapproximation gemacht werden kann.

P\left( |\sqrt{n} frac{\bar{X} - m|}{S_X} |\le  t\right) \sim 2 \Phi (t) -1

Man kann nun von einem Vertrauensniveau ausgehen. Bsp. ist t = 1,96 für ein Vertrauensniveau von 95%. Dann liegt m mit 95% Warhschreinlichkeit im Intervall :

\left[ \bar{X} - 1,96\frac{S_X}{\sqrt{n}} , \bar{X} + 1,96\frac{S_X}{\sqrt{n}} \right]


Weitere stetige Verteilungen

\chi^2-Verteilung

Es gibt n Standartnormalverteilte Zufallsvariablen. Z = X_1^2 + X_2^2 + ... + X_n^2. Für Große n konvergiert die \chi^2-Verteilung gegen die Normalverteilung. Der Erwartungswert und die Varianz sind dann:

E(Z) = n\,
Var(Z) = 2n\,

Die Dichte der \chi^2-Verteilung lässt sich für x > 0 wie folgt beschreiben:

g_n(x)= \frac{1}{2^{\frac{n}{2}}\Gamma (\frac{n}{2})} x^{\frac{n}{2}-1} e^{-\frac{n}{2}}


t-Verteilung

Es gibt zwei unabhängige Zufallsvariablen. X sei Standartnormalverteilt und Z sei \chi^2-verteilt. Dann heißt die t-Verteilung:

T_n = \frac{X_n}{\sqrt{\frac{Z_n}{n} } } 

Erwartungswert und Varianz der t-Verteilung ist:

E(T_n) = 0
Var(T_n) = \frac{n}{n - 2}

Die Dichte der t-Verteilung ist:

h(x) = \frac{\Gamma(\frac{n+1}{2} )}{\Gamma (\frac{n}{2})\Gamma (\frac{1}{2})\sqrt{n} }\left( 1 + \frac{x^2}{n}  \right)^{-\frac{n+1}{n} } 

Für n > 30 ist die Normalverteilung eine gute Approximation.


Fischer-Verteilung

Bei zwei unabhängig und \chi^2-verteilten Zufallsvariablen Z_m und Z_n heißt die Fischer-Verteilung:

\left( \frac{Z_m}{m}  \right) / \left( \frac{Z_n}{n}  \right) 

Es gilt für den Erwartungswert und die Varianz:

E(x) = \frac{n}{n-1}
Var(x) = \frac{2n^2(n+m-2)}{m(n-4)(n-2)^2}

Grenzwertsätze

Skripte und Quellen

Skript Hochschule Niederrhein

Mittelwert, Median und Modalwert: Brinkmann