Varianz (Stochastik)

aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 21. November 2017 um 14:28 Uhr durch JonskiC (Diskussion | Beiträge) (Formulierung). Sie kann sich erheblich von der aktuellen Version unterscheiden.
Zur Navigation springen Zur Suche springen
Eine gesichtete Version dieser Seite, die am 21. November 2017 freigegeben wurde, basiert auf dieser Version.
Dieser Artikel behandelt die Varianz als Kenngröße der Verteilung einer reellen Zufallsvariable. Für die Varianz einer Stichprobe siehe Stichprobenvarianz, weitere Bedeutungen finden sich unter Varianz.
Dichtefunktionen zweier normalverteilter Zufallsvariablen X {\displaystyle X} {\displaystyle X} und Y {\displaystyle Y} {\displaystyle Y} mit gleichem Erwartungswert μ X = μ Y = 0 {\displaystyle \mu _{X}=\mu _{Y}=0} {\displaystyle \mu _{X}=\mu _{Y}=0} aber unterschiedlichen Varianzen. Die waagerechte Achse zeigt den Wert, die senkrechte die Häufigkeit. Da die rote Kurve f ( x ) {\displaystyle f(x)} {\displaystyle f(x)} schmaler um den Erwartungswert verläuft als die grüne f ( y ) {\displaystyle f(y)} {\displaystyle f(y)}, weist sie eine geringere Varianz auf σ X 2 < σ Y 2 {\displaystyle \sigma _{X}^{2}<\sigma _{Y}^{2}} {\displaystyle \sigma _{X}^{2}<\sigma _{Y}^{2}}. Die Quadratwurzel der Varianz, die Standardabweichung, kann bei der Normalverteilung an den Wendepunkten abgelesen werden.

Die Varianz (lat. variantia für „Verschiedenheit"), veraltet auch Dispersion (lat. dispersio „Zerstreuung", von dispergere „verteilen, ausbreiten, zerstreuen") oder Streuung, ist die mittlere quadratische Abweichung einer reellen Zufallsvariablen von ihrem Erwartungswert. Sie ist das Quadrat der Standardabweichung, dem wichtigsten Streuungsmaß in der Stochastik. Die Varianz ist ein Maß für die Streuung der Wahrscheinlichkeitsdichte um ihren Schwerpunkt und kann physikalisch als Trägheitsmoment interpretiert werden. Mathematisch stellt die Varianz das zentrale Moment zweiter Ordnung einer Zufallsvariablen dar.

Die Varianz ist niemals negativ und ändert sich nicht bei Verschiebung der Verteilung. Die Varianz einer Summe unkorrelierter Zufallsvariablen ist gleich der Summe ihrer Varianzen. Ein Nachteil der Varianz für praktische Anwendungen ist, dass sie im Gegensatz zur Standardabweichung eine andere Einheit als die Zufallsvariable besitzt. Da sie über ein Integral definiert wird, existiert sie nicht für alle Verteilungen, d. h. sie kann auch unendlich sein. Die Varianz kann mit einem Varianzschätzer, z. B. der Stichprobenvarianz, geschätzt werden.

Eine Verallgemeinerung der Varianz stellt die Kovarianz dar. Im Gegensatz zur Varianz, die lediglich Variabilität der betrachteten Zufallsvariable misst, ist die Kovarianz ein Maß für die gemeinsame Variabilität von zwei Zufallsvariablen. Aus dieser Definition der Kovarianz folgt, dass die Kovarianz einer Zufallsvariable mit sich selbst die Varianz dieser Zufallsvariablen ergibt. Im Falle eines reellen Zufallsvektors verallgemeinert sich die Varianz zur Varianz-Kovarianz-Matrix. Die Bezeichnung „Varianz" wurde vor allem vom Statistiker Ronald Fisher geprägt.

Einführung in die Problemstellung

Als Ausgangspunkt für die Konstruktion der Varianz betrachtet man eine beliebige Größe, die vom Zufall abhängig ist und somit unterschiedliche Werte annehmen kann. Diese Größe, die im Folgenden mit X {\displaystyle X} {\displaystyle X} bezeichnet wird, folgt einer bestimmten Verteilung. Der Erwartungswert dieser Größe wird mit

μ := E ( X ) {\displaystyle \mu :=\mathbb {E} (X)} {\displaystyle \mu :=\mathbb {E} (X)}

abgekürzt.[A 1] Der Erwartungswert gibt an, welchen Wert die Zufallsvariable X {\displaystyle X} {\displaystyle X} im Mittel annimmt. Er kann als Schwerpunkt der Verteilung interpretiert werden (siehe auch Abschnitt Interpretation) und gibt daher ihre grobe Lage wieder. Um eine Verteilung ausreichend zu charakterisieren, fehlt jedoch eine Größe, die Auskunft über die Stärke der Streuung einer Verteilung um ihren Schwerpunkt gibt.[1] Daher gilt es, eine Kenngröße zur Beschreibung dieser Streuung zu finden. Sie sollte stets größer als Null sein, da sich negative Streuung nicht sinnvoll interpretieren lässt. Ein erster naheliegender Ansatz wäre, die mittlere absolute Abweichung der Zufallsvariable von ihrem Erwartungswert heranzuziehen:[2]

E ( | X μ | ) {\displaystyle \mathbb {E} \left(|X-\mu |\right)} {\displaystyle \mathbb {E} \left(|X-\mu |\right)}.

Da die in der Definition, der mittleren absoluten Abweichung, verwendete Betragsfunktion nicht überall differenzierbar ist und ansonsten in der Statistik für gewöhnlich Fehlerquadrate benutzt werden,[3] [4] ist es sinnvoll, statt der mittleren absoluten Abweichung die mittlere quadratische Abweichung zu benutzen.[A 2] Diese mittlere quadratische Abweichung ist auch als Varianz bekannt.

Definition

Sei X {\displaystyle X} {\displaystyle X} eine P-integrierbare Zufallsvariable von einem Wahrscheinlichkeitsraum ( Ω , Σ , P ) {\displaystyle (\Omega ,\Sigma ,P)} {\displaystyle (\Omega ,\Sigma ,P)} nach ( R ¯ , B ) {\displaystyle ({\overline {\mathbb {R} }},{\mathcal {B}})} {\displaystyle ({\overline {\mathbb {R} }},{\mathcal {B}})}, wobei B {\displaystyle {\mathcal {B}}} {\displaystyle {\mathcal {B}}} die Borelsche σ-Algebra über R ¯ := R { , } {\displaystyle {\overline {\mathbb {R} }}:=\mathbb {R} \cup \{-\infty ,\infty \}} {\displaystyle {\overline {\mathbb {R} }}:=\mathbb {R} \cup \{-\infty ,\infty \}} ist, das heißt, es gilt E ( | X | ) < {\displaystyle \mathbb {E} (|X|)<\infty } {\displaystyle \mathbb {E} (|X|)<\infty }. Unter dieser Voraussetzung existiert ihr Erwartungswert E ( X ) = μ {\displaystyle \mathbb {E} (X)=\mu } {\displaystyle \mathbb {E} (X)=\mu }. Die Varianz von X {\displaystyle X} {\displaystyle X} ist definiert als der Erwartungswert der Zufallsvariablen Y = ( X μ ) 2 {\displaystyle Y=\left(X-\mu \right)^{2}} {\displaystyle Y=\left(X-\mu \right)^{2}}

Var ( X ) := E ( ( X μ ) 2 ) = Ω ( ( X μ ) 2 ) d P {\displaystyle \operatorname {Var} (X):=\mathbb {E} \left((X-\mu )^{2}\right)=\int _{\Omega }\left((X-\mu )^{2}\right),円\mathrm {d} P} {\displaystyle \operatorname {Var} (X):=\mathbb {E} \left((X-\mu )^{2}\right)=\int _{\Omega }\left((X-\mu )^{2}\right),円\mathrm {d} P}[5]

Für die Varianz gilt Var ( X ) 0 {\displaystyle \operatorname {Var} (X)\geq 0} {\displaystyle \operatorname {Var} (X)\geq 0}. Falls X {\displaystyle X} {\displaystyle X} quadratisch integrierbar ist, also E ( | X | 2 ) < {\displaystyle \mathbb {E} (|X|^{2})<\infty } {\displaystyle \mathbb {E} (|X|^{2})<\infty } gilt, so ist die Varianz endlich. Das heißt, es gibt Verteilungen z. B. die Cauchy-Verteilung, für die die Varianz nicht existiert.

Die Varianz wird auch als V ( X ) {\displaystyle \operatorname {V} (X)} {\displaystyle \operatorname {V} (X)}[A 3] oder σ X 2 {\displaystyle \sigma _{X}^{2}} {\displaystyle \sigma _{X}^{2}} notiert. Besteht keine Verwechslungsgefahr, wird sie einfach als σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} (lies: Sigma Quadrat) notiert. Da die Varianz vor allem in älterer Literatur auch als Dispersion beziehungsweise Streuung bezeichnet wurde,[6] [7] findet sich auch häufig die Notation D 2 ( X ) {\displaystyle D^{2}(X)} {\displaystyle D^{2}(X)}.[8] Die Notation mit dem Quadrat des griechischen Buchstaben Sigma σ {\displaystyle \sigma } {\displaystyle \sigma } rührt daher, dass die Berechnung der Varianz der Dichtefunktion einer Normalverteilung genau dem Parameter σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} der Normalverteilung entspricht. Da die Normalverteilung in der Statistik eine sehr wichtige Rolle spielt, wird die Varianz im Allgemeinen mit σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} notiert (siehe auch Abschnitt Varianzen spezieller Verteilungen).

Varianz bei diskreten Zufallsvariablen

Eine Zufallsvariable X {\displaystyle X} {\displaystyle X} mit einem endlichen oder abzählbar unendlichen Wertebereich T = { x 1 , x 2 , , x k , } {\displaystyle {\mathcal {T}}=\{x_{1},x_{2},\dotsc ,x_{k},\dotsc \}} {\displaystyle {\mathcal {T}}=\{x_{1},x_{2},\dotsc ,x_{k},\dotsc \}}[A 4] wird diskret genannt. Ihre Varianz berechnet sich dann wie folgt:

σ 2 = ( x 1 μ ) 2 p 1 + ( x 2 μ ) 2 p 2 + + ( x k μ ) 2 p k + = i 1 ( x i μ ) 2 p i {\displaystyle \sigma ^{2}=(x_{1}-\mu )^{2}p_{1}+(x_{2}-\mu )^{2}p_{2}+\ldots +(x_{k}-\mu )^{2}p_{k}+\ldots =\sum _{i\geq 1}(x_{i}-\mu )^{2}p_{i}} {\displaystyle \sigma ^{2}=(x_{1}-\mu )^{2}p_{1}+(x_{2}-\mu )^{2}p_{2}+\ldots +(x_{k}-\mu )^{2}p_{k}+\ldots =\sum _{i\geq 1}(x_{i}-\mu )^{2}p_{i}}.[9]

Hierbei ist p i = P ( X = x i ) {\displaystyle p_{i}=P(X=x_{i})} {\displaystyle p_{i}=P(X=x_{i})} die Wahrscheinlichkeit, dass X {\displaystyle X} {\displaystyle X} den Wert x i {\displaystyle x_{i}} {\displaystyle x_{i}} annimmt. Es wird in obiger Summe also jede mögliche Ausprägung ( x i μ ) 2 {\displaystyle (x_{i}-\mu )^{2}} {\displaystyle (x_{i}-\mu )^{2}} mit der Wahrscheinlichkeit ihres Auftretens p i {\displaystyle p_{i}} {\displaystyle p_{i}} gewichtet.[10] Die Varianz ist bei diskreten Zufallsvariablen also eine gewichtete Summe mit den Gewichten p i ( i = 1 , , n ) {\displaystyle p_{i}\;(i=1,\ldots ,n)} {\displaystyle p_{i}\;(i=1,\ldots ,n)}. Der Erwartungswert einer diskreten Zufallsvariable X {\displaystyle X} {\displaystyle X} stellt ebenfalls eine gewichtete Summe dar, die durch

μ = x 1 p 1 + x 2 p 2 + + x k p k + = i 1 x i p i {\displaystyle \mu =x_{1}p_{1}+x_{2}p_{2}+\ldots +x_{k}p_{k}+\ldots =\sum _{i\geq 1}x_{i}p_{i}} {\displaystyle \mu =x_{1}p_{1}+x_{2}p_{2}+\ldots +x_{k}p_{k}+\ldots =\sum _{i\geq 1}x_{i}p_{i}}

gegeben ist. Die Summen erstrecken sich jeweils über alle Werte, die diese Zufallsvariable annehmen kann. Im Falle eines abzählbar unendlichen Wertebereichs ergibt sich eine unendliche Summe. In Worten berechnet sich die Varianz, im diskreten Fall, als Summe der Produkte der Wahrscheinlichkeiten der Realisierungen der Zufallsvariablen X {\displaystyle X} {\displaystyle X} mit der jeweiligen quadrierten Abweichung.

Varianz bei stetigen Zufallsvariablen

Eine Zufallsvariable X {\displaystyle X} {\displaystyle X} wird als stetig bezeichnet, wenn sie eine Wahrscheinlichkeitsdichtefunktion (kurz: Dichte) hat. Für stetige Zufallsvariablen verwendet man eine Wahrscheinlichkeitsdichtefunktion f ( x ) {\displaystyle f(x)} {\displaystyle f(x)}, um Wahrscheinlichkeiten über einem Intervall zu berechnen. Für die Varianz einer stetigen Zufallsvariable X {\displaystyle X} {\displaystyle X} gilt

σ 2   = ( x μ ) 2 f ( x ) d x {\displaystyle \sigma ^{2}\ =\int _{-\infty }^{\infty }(x-\mu )^{2}f(x),円\mathrm {d} x\quad } {\displaystyle \sigma ^{2}\ =\int _{-\infty }^{\infty }(x-\mu )^{2}f(x),円\mathrm {d} x\quad }, wobei ihr Erwartungswert gegeben ist durch μ   = x f ( x ) d x {\displaystyle \quad \mu \ =\int _{-\infty }^{\infty }xf(x),円\mathrm {d} x} {\displaystyle \quad \mu \ =\int _{-\infty }^{\infty }xf(x),円\mathrm {d} x}.[11]

Die Varianz berechnet sich im stetigen Fall als das Integral über das Produkt der quadrierten Abweichung und der Dichtefunktion der Verteilung. Es wird also über den Raum aller möglichen Ausprägungen (möglicher Wert eines statistischen Merkmals) integriert.

Geschichte

Karl Pearson
Ronald Fisher (1913)

Das Konzept der Varianz geht auf Carl Friedrich Gauß zurück. Gauß führte den mittleren quadratischen Fehler ein, um zu zeigen, wie sehr ein Punktschätzer um den zu schätzenden Wert streut. Diese Idee wurde von Karl Pearson, dem Begründer der Biometrie, übernommen. Er ersetzte, für dieselbe Idee, den von Gauss geprägten Begriff mittlerer Fehler durch seinen Begriff Standardabweichung. Diesen verwendet er im Anschluss in seinen Vorlesungen. Der Gebrauch des griechischen Buchstabens Sigma für die Standardabweichung wurde von Pearson, erstmals 1894 in seiner Serie von achtzehn Arbeiten mit dem Titel Mathematische Beiträge zur Evolutionstheorie (Originaltitel: Contributions to the Mathematical Theory of Evolution) eingeführt. Er schrieb dort: „ [...] dann wird σ {\displaystyle \sigma } {\displaystyle \sigma } seine Standardabweichung (Fehler des mittleren Quadrats)". Im Jahre 1901 gründete Pearson dann die Zeitschrift Biometrika, die eine wichtige Grundlage der angelsächsischen Schule der Statistik wurde.

Die Bezeichnung „Varianz" wurde vom Statistiker Ronald Fisher in seinem 1918 veröffentlichtem Aufsatz mit dem Titel Die Korrelation zwischen Verwandten in der Annahme der Mendelschen Vererbung (Originaltitel: The Correlation Between Relatives on the Supposition of Mendelian Inheritance) eingeführt. Ronald Fisher schreibt:

„Der große Körper der verfügbaren Statistiken zeigt uns, dass die Abweichungen einer menschlichen Messung von ihrem Mittel sehr genau dem Gesetz der Normalverteilung der Fehler folgen, und, folglich, dass die Variabilität gleichmäßig durch die Standardabweichung gemessen werden kann, die der Quadratwurzel des mittleren quadratischen Fehlers entspricht. Wenn es zwei unabhängige Ursachen der Variabilität gibt, die in der Lage sind, in einer ansonsten gleichmäßigen Populationsverteilung die Standardabweichungen σ 1 {\displaystyle \sigma _{1}} {\displaystyle \sigma _{1}} and σ 2 {\displaystyle \sigma _{2}} {\displaystyle \sigma _{2}} zu produzieren, wird festgestellt, dass die Verteilung, wenn beide Ursachen zusammen interagieren, eine Standardabweichung von, σ 1 2 + σ 2 2 {\displaystyle {\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}} {\displaystyle {\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}} aufweist. Es ist daher wünschenswert, die Ursachen der Variabilität zu analysieren, um mit dem Quadrat der Standardabweichung als ein Maß für die Variabilität umzugehen. Wir sollten diese Größe die Varianz taufen [...]"

Die Korrelation zwischen Verwandten in der Annahme der mendelschen Vererbung[12]

Fisher führte kein neues Symbol ein, sondern benutzte lediglich σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} zur Notation der Varianz. In den folgenden Jahren entwickelte er ein genetisches Modell, das zeigt, dass eine kontinuierliche Variation zwischen phänotypischen Merkmalen, die von Biostatistikern gemessen wurde, durch die kombinierte Wirkung vieler diskreter Gene erzeugt werden kann und somit das Ergebnis einer mendelschen Vererbung ist. Auf diesen Resultaten aufbauend formulierte Fisher dann sein fundamentales Theorem der natürlichen Selektion, welches die Gesetzmäßigkeiten der Populationsgenetik für die Zunahme der Fitness von Organismen beschreibt. Zusammen mit Pearson entwickelte er u.a. die Grundlagen der Versuchsplanung (1935 erschien The Design of Experiments) und der Varianzanalyse. Des Weiteren lässt sich die Mehrzahl der biometrischen Methoden auf Pearson und Fisher zurückführen auf deren Grundlage Jerzy Neyman und Egon Pearson in den 30er Jahren die allgemeine Testtheorie entwickelten.[13]

Kenngröße einer Wahrscheinlichkeitsverteilung

Hauptartikel: Wahrscheinlichkeitsverteilung

Jede Wahrscheinlichkeitsverteilung beziehungsweise Zufallsvariable kann durch sogenannte Kenngrößen (auch Parameter genannt) beschrieben werden, die diese Verteilung charakterisieren. Die Varianz und der Erwartungswert sind die wichtigsten Kenngrößen einer Wahrscheinlichkeitsverteilung. Sie werden bei einer Zufallsvariablen als Zusatzinformationen wie folgt angegeben: X ( μ , σ 2 ) {\displaystyle X\;\sim \;(\mu ,\sigma ^{2})} {\displaystyle X\;\sim \;(\mu ,\sigma ^{2})}. In Worten: Die Zufallsvariable X {\displaystyle X} {\displaystyle X} folgt einer (hier nicht näher spezifizierten) Verteilung mit Erwartungswert μ {\displaystyle \mu } {\displaystyle \mu } und Varianz σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}}. Für den Fall, dass die Zufallsvariable einer speziellen Verteilung folgt, zum Beispiel einer Standardnormalverteilung, wird dies wie folgt notiert: X N ( 0 , 1 ) {\displaystyle X\;\sim \;{\mathcal {N}}(0,1)} {\displaystyle X\;\sim \;{\mathcal {N}}(0,1)}. Der Erwartungswert von X {\displaystyle X} {\displaystyle X} ist also Null und die Varianz Eins. Weitere wichtige Kenngrößen einer Wahrscheinlichkeitsverteilung stellen neben den Momenten beispielsweise der Median, der Modus oder Quantile dar.[14] Die Kenngrößen einer Wahrscheinlichkeitsverteilung entsprechen in der deskriptiven Statistik den Kenngrößen einer Häufigkeitsverteilung.

Tschebyscheff-Ungleichung

Hauptartikel: Tschebyscheff-Ungleichung

Mithilfe der Tschebyscheff-Ungleichung lässt sich unter Verwendung der existierenden ersten beiden Momente die Wahrscheinlichkeit dafür abschätzen, dass die Zufallsvariable X {\displaystyle X} {\displaystyle X} Werte in bestimmten Intervallen der reellen Zahlengeraden annimmt, ohne jedoch die Verteilung von X {\displaystyle X} {\displaystyle X} zu kennen. Sie lautet für eine Zufallsvariable X {\displaystyle X} {\displaystyle X} mit Erwartungswert μ {\displaystyle \mu } {\displaystyle \mu } und Varianz σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}}:[15]

P ( | X μ | k ) σ 2 k 2 , k > 0 {\displaystyle \mathbb {P} \left(\left|X-\mu \right|\geq k\right)\leq {\frac {\sigma ^{2}}{k^{2}}}\quad ,k>0} {\displaystyle \mathbb {P} \left(\left|X-\mu \right|\geq k\right)\leq {\frac {\sigma ^{2}}{k^{2}}}\quad ,k>0}.

Die Tschebyscheff-Ungleichung gilt für alle symmetrischen sowie schiefen Verteilungen. Sie setzt also keine besondere Verteilungsform voraus. Ein Nachteil der Tschebyscheff-Ungleichung ist, dass sie nur eine grobe Abschätzung liefert.

Interpretation

Physikalische Interpretation

Die Varianz ist neben dem Erwartungswert die zweite wichtige Kenngröße der Verteilung einer reellen Zufallsvariable und das zentrale Moment zweiter Ordnung. Der Begriff Moment stammt originär aus der Physik. Wenn man die möglichen Werte als Massepunkte mit den Massen auf der (als gewichtslosen angenommenen) reellen Zahlengeraden interpretiert, dann erhält man eine physikalische Interpretation des Erwartungswertes: Das erste Moment, der Erwartungswert, stellt dann den physikalischen Schwerpunkt beziehungsweise Massenmittelpunkt des so entstehenden Körpers dar.[16] Die Varianz kann dann als Trägheitsmoment des Massesystems bezüglich der Rotationsachse um den Schwerpunkt interpretiert werden.[17] Im Gegensatz zum Erwartungswert, der also die Wahrscheinlichkeitsmasse balanciert, ist die Varianz ein Maß für die Streuung der Wahrscheinlichkeitsmasse um ihren Erwartungswert.

Interpretation als Distanz

Die Interpretation der Varianz einer Zufallsvariablen als mittlere quadrierte Distanz lässt sich wie folgt erklären: Die Distanz zwischen zwei Punkten x 1 {\displaystyle x_{1}} {\displaystyle x_{1}} und x 2 {\displaystyle x_{2}} {\displaystyle x_{2}} auf der reellen Zahlengeraden ist gegeben durch d = ( x 1 x 2 ) 2 {\displaystyle d={\sqrt {(x_{1}-x_{2})^{2}}}} {\displaystyle d={\sqrt {(x_{1}-x_{2})^{2}}}}. Wenn man jetzt definiert, dass ein Punkt die Zufallsvariable X {\displaystyle X} {\displaystyle X} ist und der andere μ = E ( X ) {\displaystyle \mu =\mathbb {E} (X)} {\displaystyle \mu =\mathbb {E} (X)}, dann gilt d = ( X μ ) 2 {\displaystyle d={\sqrt {(X-\mu )^{2}}}} {\displaystyle d={\sqrt {(X-\mu )^{2}}}}, und die quadrierte Distanz lautet ( X μ ) 2 {\displaystyle (X-\mu )^{2}} {\displaystyle (X-\mu )^{2}}. Folglich wird E ( ( X μ ) 2 ) {\displaystyle \mathbb {E} ((X-\mu )^{2})} {\displaystyle \mathbb {E} ((X-\mu )^{2})} als die mittlere quadrierte Distanz zwischen der Realisierung der Zufallsvariablen X {\displaystyle X} {\displaystyle X} und dem Erwartungswert E ( X ) {\displaystyle \mathbb {E} (X)} {\displaystyle \mathbb {E} (X)} interpretiert, wenn das Zufallsexperiment unendlich oft wiederholt wird.[18]

Interpretation als Maß für Determinismus

Dichtefunktionen normalverteilter Zufallsvariablen mit unterschiedlichen Erwartungswerten und Varianzen. Zu sehen ist, dass der Erwartungswert die Lage und Varianz die Breite der Dichtefunktion wiedergibt. Die rote Kurve zeigt die Standardnormalverteilung N ( 0 , 1 ) {\displaystyle {\mathcal {N}}(0,1)} {\displaystyle {\mathcal {N}}(0,1)} mit Erwartungswert Null und Varianz Eins.

Die Varianz beschreibt außerdem die Breite einer Wahrscheinlichkeitsfunktion[19] und daher wie „stochastisch" oder wie „deterministisch" ein betrachtetes Phänomen ist. Bei einer großen Varianz liegt eher eine stochastische Situation vor und bei einer kleinen Varianz eher eine deterministische.[20] Im Spezialfall einer Varianz von Null liegt eine vollständig deterministische Situation vor. Die Varianz ist genau dann Null, wenn die Zufallsvariable X {\displaystyle X} {\displaystyle X} mit hundertprozentiger Wahrscheinlichkeit nur einen bestimmen Wert, nämlich den Erwartungswert, annehmen kann; wenn also P ( X = μ ) = 1 {\displaystyle \mathbb {P} (X=\mu )=1} {\displaystyle \mathbb {P} (X=\mu )=1} gilt. Solch eine „Zufallsvariable" ist eine Konstante, also vollständig deterministisch. Da für eine Zufallsvariable mit dieser Eigenschaft P ( X = x ) = 0 {\displaystyle \mathbb {P} (X=x)=0} {\displaystyle \mathbb {P} (X=x)=0} für alle x μ {\displaystyle x\neq \mu } {\displaystyle x\neq \mu } gilt, bezeichnet man ihre Verteilung als „entartet".[21]

Im Gegensatz zu diskreten Zufallsvariablen gilt für stetige Zufallsvariablen stets P ( X = x ) = 0 {\displaystyle \mathbb {P} (X=x)=0} {\displaystyle \mathbb {P} (X=x)=0} für jedes x R {\displaystyle x\in \mathbb {R} } {\displaystyle x\in \mathbb {R} }.[22] Im stetigen Fall beschreibt die Varianz die Breite einer Dichtefunktion. Die Breite wiederum ist ein Maß für die Unsicherheit, die mit einer Zufallsvariable verbunden ist. Je schmaler die Dichtefunktion ist, desto genauer kann der Wert von X {\displaystyle X} {\displaystyle X} vorhergesagt werden.

Rechenregeln und Eigenschaften

Die Varianz weist eine Fülle nützlicher Eigenschaften auf, welche die Varianz zum wichtigsten Streuungsmaß macht:[23]

Verschiebungssatz

Die Varianz als zentrales, auf den Erwartungswert (das „Zentrum") bezogenes Moment lässt sich mittels des Verschiebungssatzes auch als nicht-zentrales Moment ausdrücken:

Var ( X ) = E ( ( X E ( X ) ) 2 ) = E ( X 2 ) ( E ( X ) ) 2 {\displaystyle \operatorname {Var} (X)=\mathbb {E} \left(\left(X-\mathbb {E} (X)\right)^{2}\right)=\mathbb {E} \left(X^{2}\right)-\left(\mathbb {E} (X)\right)^{2}} {\displaystyle \operatorname {Var} (X)=\mathbb {E} \left(\left(X-\mathbb {E} (X)\right)^{2}\right)=\mathbb {E} \left(X^{2}\right)-\left(\mathbb {E} (X)\right)^{2}}.[24]

Aus dem Verschiebungssatz folgt wegen der Nichtnegativitätsbedingung der Varianz, dass E ( X 2 ) ( E ( X ) ) 2 0 {\displaystyle \mathbb {E} \left(X^{2}\right)-\left(\mathbb {E} (X)\right)^{2}\geq 0} {\displaystyle \mathbb {E} \left(X^{2}\right)-\left(\mathbb {E} (X)\right)^{2}\geq 0} und somit ist E ( X 2 ) ( E ( X ) ) 2 {\displaystyle \mathbb {E} \left(X^{2}\right)\geq \left(\mathbb {E} (X)\right)^{2}} {\displaystyle \mathbb {E} \left(X^{2}\right)\geq \left(\mathbb {E} (X)\right)^{2}}. Dieses Resultat ist ein Spezialfall, der für Erwartungswerte geltende, jensenschen Ungleichung. Der Verschiebungssatz beschleunigt die Berechnung der Varianz, da der dazu nötige Erwartungswert von X 2 {\displaystyle X^{2}} {\displaystyle X^{2}} zusammen mit μ {\displaystyle \mu } {\displaystyle \mu } gebildet werden kann, während sonst μ {\displaystyle \mu } {\displaystyle \mu } bereits bekannt sein muss – konkret für diskrete beziehungsweise stetige Zufallsvariablen liefert er:

Falls X {\displaystyle X} {\displaystyle X} diskret Falls X {\displaystyle X} {\displaystyle X} stetig
σ 2 = ( i 1 x i 2 p i ) ( i 1 x i p i ) 2 {\displaystyle \sigma ^{2}=\left(\sum _{i\geq 1}x_{i}^{2}p_{i}\right)-\left(\sum _{i\geq 1}x_{i}p_{i}\right)^{2}} {\displaystyle \sigma ^{2}=\left(\sum _{i\geq 1}x_{i}^{2}p_{i}\right)-\left(\sum _{i\geq 1}x_{i}p_{i}\right)^{2}} σ 2 = x 2 f ( x ) d x ( x f ( x ) d x ) 2 {\displaystyle \sigma ^{2}=\int _{-\infty }^{\infty }x^{2}f(x),円\mathrm {d} x-\left(\int _{-\infty }^{\infty }xf(x),円\mathrm {d} x\right)^{2}} {\displaystyle \sigma ^{2}=\int _{-\infty }^{\infty }x^{2}f(x),円\mathrm {d} x-\left(\int _{-\infty }^{\infty }xf(x),円\mathrm {d} x\right)^{2}}

Lineare Transformation

Für zwei Konstanten a , b R {\displaystyle a,b\in \mathbb {R} } {\displaystyle a,b\in \mathbb {R} } gilt:

  • Die Varianz einer Konstanten ist Null, da Konstanten per Definition nicht zufällig sind und somit auch nicht streuen: Var ( b ) = 0 {\displaystyle \operatorname {Var} (b)=0} {\displaystyle \operatorname {Var} (b)=0}
  • Translationsinvarianz: Für additive Konstanten gilt Var ( X + b ) = E ( ( X + b μ b ) 2 ) = Var ( X ) {\displaystyle \operatorname {Var} (X+b)=\mathbb {E} \left((X+b-\mu -b)^{2}\right)=\operatorname {Var} (X)} {\displaystyle \operatorname {Var} (X+b)=\mathbb {E} \left((X+b-\mu -b)^{2}\right)=\operatorname {Var} (X)}. Dies bedeutet, dass eine „Verschiebung der Zufallsvariablen" um einen konstanten Betrag keine Auswirkung auf deren Streuung hat.
  • Im Gegensatz zu additiven Konstanten haben multiplikative Konstanten eine Auswirkung auf die Skalierung der Varianz. Bei multiplikativen Konstanten wird die Varianz mit der quadrierten der Konstanten, also a 2 {\displaystyle a^{2}} {\displaystyle a^{2}}, skaliert.[25] Dies kann wie folgt gezeigt werden:
Var ( a X ) = E ( ( a X a μ ) 2 ) = E ( a 2 ( X μ ) 2 ) = a 2 Var ( X ) {\displaystyle \operatorname {Var} (aX)=\mathbb {E} \left((aX-a\mu )^{2}\right)=\mathbb {E} \left(a^{2}(X-\mu )^{2}\right)=a^{2}\operatorname {Var} (X)} {\displaystyle \operatorname {Var} (aX)=\mathbb {E} \left((aX-a\mu )^{2}\right)=\mathbb {E} \left(a^{2}(X-\mu )^{2}\right)=a^{2}\operatorname {Var} (X)}.

Hierbei wurde die Eigenschaft der Linearität des Erwartungswertes benutzt. Zusammengefasst ergibt die Varianzbildung einer linearen transformierten Zufallsvariable Y = a X + b {\displaystyle Y=aX+b} {\displaystyle Y=aX+b}:

Var ( Y ) = Var ( a X + b ) = a 2 Var ( X ) {\displaystyle \operatorname {Var} (Y)=\operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)} {\displaystyle \operatorname {Var} (Y)=\operatorname {Var} (aX+b)=a^{2}\operatorname {Var} (X)}.

Insbesondere für a = 1 {\displaystyle a=-1} {\displaystyle a=-1} folgt Var ( X ) = Var ( X ) {\displaystyle \operatorname {Var} (-X)=\operatorname {Var} (X)} {\displaystyle \operatorname {Var} (-X)=\operatorname {Var} (X)}, das heißt, die Varianz ändert nicht das Vorzeichen, wenn sich bei der Zufallsvariable das Vorzeichen ändert.

Jede Zufallsvariable kann durch Zentrierung und anschließender Normierung, genannt Standardisierung, welche eine lineare Transformation darstellt, in eine Zufallsvariable Z {\displaystyle Z} {\displaystyle Z} überführt werden. Für solch eine standardisierte Zufallsvariable Z {\displaystyle Z} {\displaystyle Z} gilt, dass sie eine Varianz von 1 {\displaystyle 1} {\displaystyle 1} und einen Erwartungswert von 0 {\displaystyle 0} {\displaystyle 0} aufweist.

Beziehung zur Standardabweichung

Die Varianz einer Zufallsvariable wird immer in Quadrateinheiten angegeben.[26] Dies ist oft problematisch, da quadrierte Einheiten wie zum Beispiel cm 2 {\displaystyle {\text{cm}}^{2}} {\displaystyle {\text{cm}}^{2}} oft keine sinnvolle Interpretation bieten. Um die gleiche Einheit wie die Zufallsvariable zu erhalten, wird daher statt der Varianz oft das Konzept der Standardabweichung verwendet. Die Standardabweichung, die ebenfalls ein Streuungsmaß darstellt,[27] ergibt sich aus der positiven Quadratwurzel der Varianz:[28]

σ X := + Var ( X ) = + E ( ( X μ ) 2 ) {\displaystyle \sigma _{X}:=+{\sqrt {\operatorname {Var} (X)}}=+{\sqrt {\mathbb {E} \left((X-\mu )^{2}\right)}}} {\displaystyle \sigma _{X}:=+{\sqrt {\operatorname {Var} (X)}}=+{\sqrt {\mathbb {E} \left((X-\mu )^{2}\right)}}}.

Sie wird als σ ( X ) {\displaystyle \sigma (X)} {\displaystyle \sigma (X)} (gelegentlich auch als D ( X ) {\displaystyle D(X)} {\displaystyle D(X)}), σ X {\displaystyle \sigma _{X}} {\displaystyle \sigma _{X}}, oder einfach als σ {\displaystyle \sigma } {\displaystyle \sigma } notiert. Damit das Streuungsmaß die gleiche Dimension und Maßeinheit wie die Zufallsvariable X {\displaystyle X} {\displaystyle X} besitzt, zieht man also die Quadratwurzel der Varianz und erhält somit die Standardabweichung.[29] Ferner eignet sich die Standardabweichung zur Quantifizierung von Unsicherheit bei Entscheidungen unter Risiko und ist somit, im Gegensatz zur Varianz ein Risikomaß. Bei einigen Wahrscheinlichkeitsverteilungen, insbesondere der Normalverteilung, können aus der Standardabweichung direkt Wahrscheinlichkeiten berechnet werden. So befinden sich bei der Normalverteilung immer ca. 68 % {\displaystyle 68,円\%} {\displaystyle 68,円\%} der Wahrscheinlichkeit im Intervall von der Breite von zwei Standardabweichungen um den Erwartungswert. Beispiel hierfür ist der Intelligenzquotient: Er ist auf Erwartungswert 100 {\displaystyle 100} {\displaystyle 100} und Standardabweichung 15 {\displaystyle 15} {\displaystyle 15} normiert, daher haben ca. 68 % {\displaystyle 68,円\%} {\displaystyle 68,円\%} aller Menschen einen Intelligenzquotienten zwischen 85 {\displaystyle 85} {\displaystyle 85} und 115 {\displaystyle 115} {\displaystyle 115}.

Im Gegensatz zur Varianz gilt für die Standardabweichung die Rechenregel σ ( a X + b ) = | a | σ ( X ) , a , b R {\displaystyle \sigma (aX+b)=|a|\sigma (X),\quad a,b\in \mathbb {R} } {\displaystyle \sigma (aX+b)=|a|\sigma (X),\quad a,b\in \mathbb {R} } für lineare Transformationen, das heißt dass die Standardabweichung wird im Gegensatz zur Varianz nicht mit dem quadrierten der Konstanten a 2 {\displaystyle a^{2}} {\displaystyle a^{2}} skaliert.

Beziehung zur Kovarianz

Hauptartikel: Kovarianz (Stochastik)

Im Gegensatz zur Varianz, die lediglich die Variabilität der betrachteten Zufallsvariable misst, misst die Kovarianz, die gemeinsame Variabilität von zwei Zufallsvariablen. Die Varianz ist demnach die Kovarianz einer Zufallsvariable mit sich selbst. Diese Beziehung folgt direkt aus der Definition der Varianz und Kovarianz. Die Kovarianz zwischen X {\displaystyle X} {\displaystyle X} und Y {\displaystyle Y} {\displaystyle Y} wird auch mit σ X Y {\displaystyle \sigma _{XY}} {\displaystyle \sigma _{XY}} abgekürzt. Außerdem gilt, da die Kovarianz eine positiv semidefinite Bilinearform ist, die Cauchy-Schwarzsche Ungleichung:

( Cov ( X , Y ) ) 2 Var ( X ) Var ( Y ) {\displaystyle (\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)} {\displaystyle (\operatorname {Cov} (X,Y))^{2}\leq \operatorname {Var} (X)\operatorname {Var} (Y)}.

Diese Ungleichung gehört zu den bedeutendsten in der Mathematik und findet vor allem in der linearen Algebra Anwendung.

Summen und Produkte

Für die Varianz einer beliebigen Summe von Zufallsvariablen X = a 1 X 1 + + a n X n {\displaystyle X=a_{1}X_{1}+\ldots +a_{n}X_{n}} {\displaystyle X=a_{1}X_{1}+\ldots +a_{n}X_{n}} gilt allgemein:[30] [31]

Var ( X ) = a 1 2 Var ( X 1 ) + + a n 2 Var ( X n ) + 2 a 1 a 2 Cov ( X 1 , X 2 ) + 2 a 1 a 3 Cov ( X 1 , X 3 ) + = i = 1 n a i 2 Var ( X i ) + 2 i < j a i a j Cov ( X i , X j ) {\displaystyle {\begin{aligned}\operatorname {Var} \left(X\right)&=a_{1}^{2}\operatorname {Var} \left(X_{1}\right)+\ldots +a_{n}^{2}\operatorname {Var} \left(X_{n}\right)+2a_{1}a_{2}\operatorname {Cov} \left(X_{1},X_{2}\right)+2a_{1}a_{3}\operatorname {Cov} \left(X_{1},X_{3}\right)+\ldots \\&=\sum \nolimits _{i=1}^{n}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum \nolimits _{i<j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\\end{aligned}}} {\displaystyle {\begin{aligned}\operatorname {Var} \left(X\right)&=a_{1}^{2}\operatorname {Var} \left(X_{1}\right)+\ldots +a_{n}^{2}\operatorname {Var} \left(X_{n}\right)+2a_{1}a_{2}\operatorname {Cov} \left(X_{1},X_{2}\right)+2a_{1}a_{3}\operatorname {Cov} \left(X_{1},X_{3}\right)+\ldots \\&=\sum \nolimits _{i=1}^{n}a_{i}^{2}\operatorname {Var} (X_{i})+2\sum \nolimits _{i<j}a_{i}a_{j}\operatorname {Cov} (X_{i},X_{j})\\\end{aligned}}}.

Hierbei bezeichnet Cov ( X i , X j ) {\displaystyle \operatorname {Cov} (X_{i},X_{j})} {\displaystyle \operatorname {Cov} (X_{i},X_{j})} die Kovarianz der Zufallsvariablen X i {\displaystyle X_{i}} {\displaystyle X_{i}} und X j {\displaystyle X_{j}} {\displaystyle X_{j}} und es wurde die Eigenschaft Cov ( X i , X i ) = Var ( X i ) {\displaystyle \operatorname {Cov} (X_{i},X_{i})=\operatorname {Var} (X_{i})} {\displaystyle \operatorname {Cov} (X_{i},X_{i})=\operatorname {Var} (X_{i})} verwendet. Berücksichtigt man das Verhalten der Varianz bei linearen Transformationen, dann gilt für die Varianz der Linearkombination, beziehungsweise der gewichteten Summe, zweier Zufallsvariablen:

Var ( a X ± b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) {\displaystyle \operatorname {Var} (aX\pm bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\operatorname {Cov} (X,Y)} {\displaystyle \operatorname {Var} (aX\pm bY)=a^{2}\operatorname {Var} (X)+b^{2}\operatorname {Var} (Y)+2ab\operatorname {Cov} (X,Y)}.

Speziell für zwei Zufallsvariablen X {\displaystyle X} {\displaystyle X}, Y {\displaystyle Y} {\displaystyle Y} und a = b = 1 {\displaystyle a=b=1} {\displaystyle a=b=1} ergibt sich beispielsweise

Var ( X + Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) {\displaystyle \operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\operatorname {Cov} (X,Y)} {\displaystyle \operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\operatorname {Cov} (X,Y)}.[32]

Dies bedeutet, dass die Variabilität der Summe zweier Zufallsvariablen der Summe der einzelnen Variabilitäten und dem zweifachen der gemeinsamen Variabilität der beiden Zufallsvariablen ergibt.

Ein weiterer Grund, warum die Varianz anderen Streuungsmaßen vorgezogen wird, ist die nützliche Eigenschaft, dass die Varianz der Summe unabhängiger Zufallsvariablen der Summe der Varianzen entspricht:

Var ( X ± Y ) = Var ( X ) + Var ( Y ) {\displaystyle \operatorname {Var} (X\pm Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)} {\displaystyle \operatorname {Var} (X\pm Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)}.[33] [34]

Dies resultiert daraus, dass bei unabhängigen Zufallsvariablen Cov ( X , Y ) = 0 {\displaystyle \operatorname {Cov} (X,Y)=0} {\displaystyle \operatorname {Cov} (X,Y)=0} gilt. Diese Formel lässt sich auch verallgemeinern: Wenn n {\displaystyle n} {\displaystyle n} Zufallsvariablen paarweise unabhängig sind, das heißt ihre Kovarianzen sind alle gleich Null, gilt

Var ( X 1 + + X n ) = Var ( X 1 ) + + Var ( X n ) {\displaystyle \operatorname {Var} \left(X_{1}+\ldots +X_{n}\right)=\operatorname {Var} (X_{1})+\ldots +\operatorname {Var} (X_{n})} {\displaystyle \operatorname {Var} \left(X_{1}+\ldots +X_{n}\right)=\operatorname {Var} (X_{1})+\ldots +\operatorname {Var} (X_{n})},

oder allgemeiner mit beliebigen Konstanten a 1 , , a n {\displaystyle a_{1},\ldots ,a_{n}} {\displaystyle a_{1},\ldots ,a_{n}}

Var ( a 1 X 1 + + a n X n ) = a 1 2 Var ( X 1 ) + + a n 2 Var ( X n ) {\displaystyle {\begin{aligned}\operatorname {Var} \left(a_{1}X_{1}+\ldots +a_{n}X_{n}\right)=a_{1}^{2}\operatorname {Var} \left(X_{1}\right)+\ldots +a_{n}^{2}\operatorname {Var} \left(X_{n}\right)\end{aligned}}} {\displaystyle {\begin{aligned}\operatorname {Var} \left(a_{1}X_{1}+\ldots +a_{n}X_{n}\right)=a_{1}^{2}\operatorname {Var} \left(X_{1}\right)+\ldots +a_{n}^{2}\operatorname {Var} \left(X_{n}\right)\end{aligned}}}.

Dieses Resultat wurde 1853 vom französischen Mathematiker Irénée-Jules Bienaymé entdeckt und wird daher auch als Gleichung von Bienaymé bezeichnet.[35] [36] Sie gilt insbesondere dann, wenn die Zufallsvariablen unabhängig sind, denn aus Unabhängigkeit folgt Unkorreliertheit. Wenn alle Zufallsvariablen die gleiche Varianz σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} haben, bedeutet dies für die Varianzbildung des Stichprobenmittels:

Var ( X ¯ ) = Var ( 1 n i = 1 n X i ) = 1 n 2 i = 1 n Var ( X i ) = σ 2 n {\displaystyle \operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {\sigma ^{2}}{n}}} {\displaystyle \operatorname {Var} \left({\overline {X}}\right)=\operatorname {Var} \left({\frac {1}{n}}\sum _{i=1}^{n}X_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}\operatorname {Var} \left(X_{i}\right)={\frac {\sigma ^{2}}{n}}}.

Man kann erkennen, dass, wenn der Stichprobenumfang n {\displaystyle n} {\displaystyle n} steigt, die Varianz des Stichprobenmittels sinkt. Diese Formel für die Varianz des Stichprobenmittels wird bei der Definition des Standardfehlers des Stichprobenmittels benutzt, welcher im zentralen Grenzwertsatz angewendet wird.

Sind zwei Zufallsvariablen X {\displaystyle X} {\displaystyle X} and Y {\displaystyle Y} {\displaystyle Y} unabhängig, dann ist die Varianz ihres Produktes gegeben durch[37]

Var ( X Y ) = ( E ( X ) ) 2 Var ( Y ) + ( E ( Y ) ) 2 Var ( X ) + Var ( X ) Var ( Y ) {\displaystyle {\begin{aligned}\operatorname {Var} (XY)&=(\mathbb {E} (X))^{2}\operatorname {Var} (Y)+(\mathbb {E} (Y))^{2}\operatorname {Var} (X)+\operatorname {Var} (X)\operatorname {Var} (Y)\end{aligned}}} {\displaystyle {\begin{aligned}\operatorname {Var} (XY)&=(\mathbb {E} (X))^{2}\operatorname {Var} (Y)+(\mathbb {E} (Y))^{2}\operatorname {Var} (X)+\operatorname {Var} (X)\operatorname {Var} (Y)\end{aligned}}}.

Zusammengesetzte Zufallsvariable

Ist Y {\displaystyle Y} {\displaystyle Y} eine zusammengesetzte Zufallsvariable, d.h. sind N , X 1 , X 2 , {\displaystyle N,X_{1},X_{2},\dots } {\displaystyle N,X_{1},X_{2},\dots } unabhängige Zufallsvariablen, sind die X i {\displaystyle X_{i}} {\displaystyle X_{i}} identisch verteilt und ist N {\displaystyle N} {\displaystyle N} auf N 0 {\displaystyle \mathbb {N} _{0}} {\displaystyle \mathbb {N} _{0}} definiert, so lässt sich Y {\displaystyle Y} {\displaystyle Y} darstellen als Y := i = 1 N X i {\displaystyle Y:=\sum \nolimits _{i=1}^{N}X_{i}} {\displaystyle Y:=\sum \nolimits _{i=1}^{N}X_{i}}. Existieren die zweiten Momente von N , X 1 , X 2 , {\displaystyle N,X_{1},X_{2},\dots } {\displaystyle N,X_{1},X_{2},\dots }, so gilt für die zusammengesetzte Zufallsvariable:

Var ( Y ) = Var ( N ) ( E ( X 1 ) ) 2 + E ( N ) Var ( X 1 ) {\displaystyle \operatorname {Var} (Y)=\operatorname {Var} (N)(\mathbb {E} (X_{1}))^{2}+\mathbb {E} (N)\operatorname {Var} (X_{1})} {\displaystyle \operatorname {Var} (Y)=\operatorname {Var} (N)(\mathbb {E} (X_{1}))^{2}+\mathbb {E} (N)\operatorname {Var} (X_{1})}.

Diese Aussage ist auch als Blackwell-Girshick-Gleichung bekannt.

Momenterzeugende und kumulantenerzeugende Funktion

Mithilfe der momenterzeugenden Funktion lassen sich Momente wie die Varianz häufig einfacher berechnen. Die momenterzeugende Funktion ist definiert als Erwartungswert der Funktion e t X {\displaystyle e^{tX}} {\displaystyle e^{tX}}. Da für die momenterzeugende Funktion E ( e t X ) {\displaystyle \mathbb {E} (e^{tX})} {\displaystyle \mathbb {E} (e^{tX})}[38] der Zusammenhang

M X ( n ) ( t = 0 ) = E ( X n ) {\displaystyle M_{X}^{(n)}(t=0)=\mathbb {E} (X^{n})} {\displaystyle M_{X}^{(n)}(t=0)=\mathbb {E} (X^{n})}

gilt, lässt sich die Varianz, durch den Verschiebungssatz, damit auf folgende Weise berechnen:

Var ( X ) = E ( X 2 ) ( E ( X ) ) 2 = M X ( 0 ) ( M X ( 0 ) ) 2 {\displaystyle \operatorname {Var} (X)=\mathbb {E} (X^{2})-(\mathbb {E} (X))^{2}=M_{X}''(0)-\left(M_{X}'(0)\right)^{2}} {\displaystyle \operatorname {Var} (X)=\mathbb {E} (X^{2})-(\mathbb {E} (X))^{2}=M_{X}''(0)-\left(M_{X}'(0)\right)^{2}}.

Hierbei ist M X {\displaystyle M_{X}} {\displaystyle M_{X}} die momenterzeugende Funktion und M X ( n ) {\displaystyle M_{X}^{(n)}} {\displaystyle M_{X}^{(n)}} die n-te Ableitung dieser. Die kumulantenerzeugende Funktion einer Zufallsvariable ergibt als Logarithmus der momenterzeugenden Funktion und ist definiert als:

g X ( t ) := ln E ( e t X ) {\displaystyle g_{X}(t):=\ln \mathbb {E} (e^{tX})} {\displaystyle g_{X}(t):=\ln \mathbb {E} (e^{tX})}.

Leitet man sie zweimal ab und wertet sie an der Stelle Null aus, so erhält man für die Varianz g X ( t ) | t = 0 = σ 2 {\displaystyle g''_{X}(t){\bigg |}_{t=0}=\sigma ^{2}} {\displaystyle g''_{X}(t){\bigg |}_{t=0}=\sigma ^{2}}. Die zweite Kumulante ist also die Varianz.

Charakteristische und wahrscheinlichkeitserzeugende Funktion

Die Varianz einer Zufallsvariable X {\displaystyle X} {\displaystyle X} lässt sich auch mit Hilfe ihrer charakteristischen Funktion φ X ( t ) = E ( e i t X ) {\displaystyle \varphi _{X}(t)=\mathbb {E} \left(e^{\mathrm {i} tX}\right)} {\displaystyle \varphi _{X}(t)=\mathbb {E} \left(e^{\mathrm {i} tX}\right)} darstellen. Wegen

E ( X k ) = φ X ( 0 ) i k , k = 1 , 2 , {\displaystyle \mathbb {E} (X^{k})={\frac {\varphi _{X}''(0)}{\mathrm {i} ^{k}}}\;,k=1,2,\dots } {\displaystyle \mathbb {E} (X^{k})={\frac {\varphi _{X}''(0)}{\mathrm {i} ^{k}}}\;,k=1,2,\dots } und ( E ( X ) ) 2 = ( φ X ( 0 ) i ) 2 {\displaystyle (\mathbb {E} (X))^{2}=\left({\frac {\varphi _{X}'(0)}{\mathrm {i} }}\right)^{2}} {\displaystyle (\mathbb {E} (X))^{2}=\left({\frac {\varphi _{X}'(0)}{\mathrm {i} }}\right)^{2}} folgt nämlich mit dem Verschiebungssatz:
Var ( X ) = E ( X 2 ) ( E ( X ) ) 2 = φ X ( 0 ) i 2 ( φ X ( 0 ) i ) 2 {\displaystyle \operatorname {Var} (X)=\mathbb {E} (X^{2})-(\mathbb {E} (X))^{2}={\frac {\varphi _{X}''(0)}{\mathrm {i} ^{2}}}-\left({\frac {\varphi _{X}'(0)}{\mathrm {i} }}\right)^{2}} {\displaystyle \operatorname {Var} (X)=\mathbb {E} (X^{2})-(\mathbb {E} (X))^{2}={\frac {\varphi _{X}''(0)}{\mathrm {i} ^{2}}}-\left({\frac {\varphi _{X}'(0)}{\mathrm {i} }}\right)^{2}}.[39]

Auch mit der wahrscheinlichkeitserzeugenden Funktion m X ( t ) = E ( t X ) {\displaystyle m_{X}(t)=\mathbb {E} (t^{X})} {\displaystyle m_{X}(t)=\mathbb {E} (t^{X})}, die in Beziehung zur charakteristische Funktion steht lässt sich für diskrete X {\displaystyle X} {\displaystyle X} die Varianz berechnen. Es gilt dann für die Varianz σ 2 = lim t 1 ( m X ( t ) + m X ( t ) m X ( t ) 2 ) {\displaystyle \sigma ^{2}=\lim _{t\uparrow 1}\left(m_{X}''(t)+m_{X}'(t)-m_{X}'(t)^{2}\right)} {\displaystyle \sigma ^{2}=\lim _{t\uparrow 1}\left(m_{X}''(t)+m_{X}'(t)-m_{X}'(t)^{2}\right)}, falls der linksseitige Grenzwert existiert.

Varianzen spezieller Verteilungen

In der Stochastik gibt es eine Vielzahl von Verteilungen, die meist eine unterschiedliche Varianz aufweisen und oft in Beziehung zueinander stehen. Die Varianz der Normalverteilung ist von großer Bedeutung, da die Normalverteilung in der Statistik eine außerordentliche Stellung einnimmt. Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind. Eine Auswahl wichtiger Varianzen ist in nachfolgender Tabelle zusammengefasst:

Verteilung Stetig/diskret Wahrscheinlichkeitsfunktion Varianz
Normalverteilung Stetig f ( x ) = 1 σ 2 π e 1 2 ( x μ σ ) 2 {\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}} {\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}} σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}}
Cauchy-Verteilung Stetig f ( x ) = 1 π s s 2 + ( x t ) 2 {\displaystyle f(x)={\frac {1}{\pi }}\cdot {\frac {s}{s^{2}+(x-t)^{2}}}} {\displaystyle f(x)={\frac {1}{\pi }}\cdot {\frac {s}{s^{2}+(x-t)^{2}}}} existiert nicht
Bernoulli-Verteilung Diskret f ( x p ) = { p x ( 1 p ) 1 x falls x = 0 , 1 0 sonst. {\displaystyle f(x\mid p)={\begin{cases}p^{x}(1-p)^{1-x}&{\text{falls}}\quad x=0,1\0円&{\text{sonst.}}\end{cases}}} {\displaystyle f(x\mid p)={\begin{cases}p^{x}(1-p)^{1-x}&{\text{falls}}\quad x=0,1\0円&{\text{sonst.}}\end{cases}}} p q {\displaystyle pq} {\displaystyle pq}
Binomialverteilung Diskret B ( x ) = { ( n k ) p x ( 1 p ) n x falls x = 0 , 1 , , n 0 sonst. {\displaystyle B(x)={\begin{cases}{\binom {n}{k}}p^{x}(1-p)^{n-x}&{\text{falls}}\quad x=0,1,\dots ,n\0円&{\text{sonst.}}\end{cases}}} {\displaystyle B(x)={\begin{cases}{\binom {n}{k}}p^{x}(1-p)^{n-x}&{\text{falls}}\quad x=0,1,\dots ,n\0円&{\text{sonst.}}\end{cases}}} n p q {\displaystyle npq} {\displaystyle npq}
Stetige Gleichverteilung Diskret f ( x ) = { 1 b a a x b 0 sonst. {\displaystyle f(x)={\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\0円&{\text{sonst.}}\end{cases}}} {\displaystyle f(x)={\begin{cases}{\frac {1}{b-a}}&a\leq x\leq b\0円&{\text{sonst.}}\end{cases}}} 1 12 ( b a ) 2 {\displaystyle {\frac {1}{12}}(b-a)^{2}} {\displaystyle {\frac {1}{12}}(b-a)^{2}}
Poisson-Verteilung Diskret f ( x ) = { λ x x ! e λ falls x = 0 , 1 , 0 sonst. {\displaystyle f(x)={\begin{cases}{\frac {\lambda ^{x}}{x!}},円\mathrm {e} ^{-\lambda }&{\text{falls}}\quad x=0,1,\dots \0円&{\text{sonst.}}\end{cases}}} {\displaystyle f(x)={\begin{cases}{\frac {\lambda ^{x}}{x!}},円\mathrm {e} ^{-\lambda }&{\text{falls}}\quad x=0,1,\dots \0円&{\text{sonst.}}\end{cases}}} λ {\displaystyle \lambda } {\displaystyle \lambda }

Beispiele

Berechnung bei diskreter Zufallsvariable

Gegeben ist eine diskrete Zufallsvariable X {\displaystyle X} {\displaystyle X}, welche die Werte 1 {\displaystyle -1} {\displaystyle -1}, 1 {\displaystyle 1} {\displaystyle 1} und 2 {\displaystyle 2} {\displaystyle 2} mit je den Wahrscheinlichkeiten 0 , 5 {\displaystyle 0{,}5} {\displaystyle 0{,}5}, 0 , 3 {\displaystyle 0{,}3} {\displaystyle 0{,}3} und 0 , 2 {\displaystyle 0{,}2} {\displaystyle 0{,}2} annimmt. Diese Werte lassen sich in folgender Tabelle zusammenfassen

X = x i {\displaystyle X=x_{i}} {\displaystyle X=x_{i}} 1 {\displaystyle -1} {\displaystyle -1} 1 {\displaystyle 1} {\displaystyle 1} 2 {\displaystyle 2} {\displaystyle 2}
P ( X = x i ) = p i {\displaystyle P(X=x_{i})=p_{i}} {\displaystyle P(X=x_{i})=p_{i}} 0 , 5 {\displaystyle 0{,}5} {\displaystyle 0{,}5} 0 , 3 {\displaystyle 0{,}3} {\displaystyle 0{,}3} 0 , 2 {\displaystyle 0{,}2} {\displaystyle 0{,}2} i p i = 1 {\displaystyle \sum _{i}p_{i}=1} {\displaystyle \sum _{i}p_{i}=1}

Der Erwartungswert beträgt nach obiger Definition

μ = i = 1 3 x i p i = 1 0 , 5 + 1 0 , 3 + 2 0 , 2 = 0 , 2 {\displaystyle {\color {BrickRed}\mu }=\sum _{i=1}^{3}x_{i}p_{i}=-1\cdot 0{,}5+1\cdot 0{,}3+2\cdot 0{,}2={\color {BrickRed}0{,}2}} {\displaystyle {\color {BrickRed}\mu }=\sum _{i=1}^{3}x_{i}p_{i}=-1\cdot 0{,}5+1\cdot 0{,}3+2\cdot 0{,}2={\color {BrickRed}0{,}2}}.

Die Varianz ist demnach gegeben durch

σ 2 = i = 1 3 ( x i μ ) 2 p i = ( 1 0 , 2 ) 2 0 , 5 + ( 1 0 , 2 ) 2 0 , 3 + ( 2 0 , 2 ) 2 0 , 2 = 1 , 56 {\displaystyle \sigma ^{2}=\sum _{i=1}^{3}(x_{i}-{\color {BrickRed}\mu })^{2}p_{i}=(-1-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}5+(1-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}3+(2-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}2=1{,}56} {\displaystyle \sigma ^{2}=\sum _{i=1}^{3}(x_{i}-{\color {BrickRed}\mu })^{2}p_{i}=(-1-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}5+(1-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}3+(2-{\color {BrickRed}0{,}2})^{2}\cdot 0{,}2=1{,}56}.

Mit dem Verschiebungssatz erhält man ebenfalls den gleichen Wert für die Varianz:

σ 2 = ( i = 1 3 x i 2 p i ) ( i = 1 3 x i p i ) 2 = ( 1 ) 2 0 , 5 + 1 2 0 , 3 + 2 2 0 , 2 0 , 2 2 = 1 , 56 {\displaystyle \sigma ^{2}=\left(\sum _{i=1}^{3}x_{i}^{2}p_{i}\right)-\left(\sum _{i=1}^{3}x_{i}p_{i}\right)^{2}=(-1)^{2}\cdot 0{,}5+1^{2}\cdot 0{,}3+2^{2}\cdot 0{,}2-{\color {BrickRed}0{,}2}^{2}=1{,}56} {\displaystyle \sigma ^{2}=\left(\sum _{i=1}^{3}x_{i}^{2}p_{i}\right)-\left(\sum _{i=1}^{3}x_{i}p_{i}\right)^{2}=(-1)^{2}\cdot 0{,}5+1^{2}\cdot 0{,}3+2^{2}\cdot 0{,}2-{\color {BrickRed}0{,}2}^{2}=1{,}56}.

Für die Standardabweichung ergibt sich damit:

σ = σ 2 = 1 , 56 1,249 {\displaystyle \sigma ={\sqrt {\sigma ^{2}}}={\sqrt {1{,}56}}\approx 1{,}249} {\displaystyle \sigma ={\sqrt {\sigma ^{2}}}={\sqrt {1{,}56}}\approx 1{,}249}.

Berechnung bei stetiger Zufallsvariable

Eine stetige Zufallsvariable habe die Dichtefunktion

f ( x ) = { 1 x falls 1 x e 0 sonst. {\displaystyle f(x)={\begin{cases}{\frac {1}{x}}&{\text{falls}}\quad 1\leq x\leq e\0円&{\text{sonst.}}\end{cases}}} {\displaystyle f(x)={\begin{cases}{\frac {1}{x}}&{\text{falls}}\quad 1\leq x\leq e\0円&{\text{sonst.}}\end{cases}}},

mit dem Erwartungswert von X {\displaystyle X} {\displaystyle X}

μ = 1 e x 1 x d x = e 1 {\displaystyle {\color {BrickRed}\mu }=\int _{1}^{e}x\cdot {\frac {1}{x}},円\mathrm {d} x=\color {BrickRed}{e-1}} {\displaystyle {\color {BrickRed}\mu }=\int _{1}^{e}x\cdot {\frac {1}{x}},円\mathrm {d} x=\color {BrickRed}{e-1}}

und dem Erwartungswert von X 2 {\displaystyle X^{2}} {\displaystyle X^{2}}

E ( X 2 ) = x 2 f ( x ) d x = 1 e x 2 1 x d x = [ x 2 2 ] 1 e = e 2 2 1 2 {\displaystyle \mathbb {E} {\bigl (}X^{2}{\bigr )}=\int _{-\infty }^{\infty }x^{2}\cdot f(x),円\mathrm {d} x=\int _{1}^{e}x^{2}\cdot {\frac {1}{x}},円\mathrm {d} x=\left[{\frac {x^{2}}{2}}\right]_{1}^{e}={\frac {e^{2}}{2}}-{\frac {1}{2}}} {\displaystyle \mathbb {E} {\bigl (}X^{2}{\bigr )}=\int _{-\infty }^{\infty }x^{2}\cdot f(x),円\mathrm {d} x=\int _{1}^{e}x^{2}\cdot {\frac {1}{x}},円\mathrm {d} x=\left[{\frac {x^{2}}{2}}\right]_{1}^{e}={\frac {e^{2}}{2}}-{\frac {1}{2}}}.

Die Varianz dieser Dichtefunktion berechnet sich mit Hilfe des Verschiebungssatzes wie folgt:

σ 2 = x 2 f ( x ) d x μ 2 = e 2 2 1 2 ( e 1 ) 2 0,242 {\displaystyle \sigma ^{2}=\int _{-\infty }^{\infty }x^{2}f(x),円\mathrm {d} x-{\color {BrickRed}\mu }^{2}={\frac {e^{2}}{2}}-{\frac {1}{2}}-{\color {BrickRed}(e-1)}^{2}\approx 0{,}242} {\displaystyle \sigma ^{2}=\int _{-\infty }^{\infty }x^{2}f(x),円\mathrm {d} x-{\color {BrickRed}\mu }^{2}={\frac {e^{2}}{2}}-{\frac {1}{2}}-{\color {BrickRed}(e-1)}^{2}\approx 0{,}242}.

Stichprobenvarianz als Schätzer für die Varianz

Seien X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} {\displaystyle X_{1},\dots ,X_{n}} reelle unabhängig und identisch verteilte Zufallsvariablen mit dem Erwartungswert E ( X i ) = b {\displaystyle \mathbb {E} (X_{i})=b} {\displaystyle \mathbb {E} (X_{i})=b} und der endlichen Varianz σ 2 = Var ( X i ) {\displaystyle \sigma ^{2}=\operatorname {Var} (X_{i})} {\displaystyle \sigma ^{2}=\operatorname {Var} (X_{i})}. Ein Schätzer für den Erwartungswert b {\displaystyle b} {\displaystyle b} stellt das Stichprobenmittel X ¯ n {\displaystyle {\overline {X}}_{n}} {\displaystyle {\overline {X}}_{n}} dar, da nach dem Gesetz der großen Zahlen gilt:

X ¯ n p b {\displaystyle {\overline {X}}_{n}\;{\xrightarrow {p}}\;b} {\displaystyle {\overline {X}}_{n}\;{\xrightarrow {p}}\;b}.

Es wird im Folgenden ein Schätzer für die Varianz σ 2 {\displaystyle \sigma ^{2}} {\displaystyle \sigma ^{2}} gesucht. Ausgehend von X 1 , , X n {\displaystyle X_{1},\dots ,X_{n}} {\displaystyle X_{1},\dots ,X_{n}} definiert man sich die Zufallsvariablen Y i := ( X i b ) 2 , i = 1 , , n {\displaystyle Y_{i}:=(X_{i}-b)^{2},\quad i=1,\dots ,n} {\displaystyle Y_{i}:=(X_{i}-b)^{2},\quad i=1,\dots ,n}. Diese sind unabhängig und identisch verteilt mit dem Erwartungswert E ( Y i ) = E ( X i b ) 2 = σ 2 {\displaystyle \mathbb {E} (Y_{i})=\mathbb {E} (X_{i}-b)^{2}=\sigma ^{2}} {\displaystyle \mathbb {E} (Y_{i})=\mathbb {E} (X_{i}-b)^{2}=\sigma ^{2}}. Ist Y {\displaystyle Y} {\displaystyle Y} nun quadratisch integrierbar, dann ist das schwache Gesetz der großen Zahlen anwendbar, und es gilt:

Y ¯ n = 1 n i = 1 n ( X i b ) 2 p σ 2 {\displaystyle {\overline {Y}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-b)^{2}\;{\xrightarrow {p}}\;\sigma ^{2}} {\displaystyle {\overline {Y}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-b)^{2}\;{\xrightarrow {p}}\;\sigma ^{2}}.

Wenn man nun b {\displaystyle b} {\displaystyle b} durch X ¯ n {\displaystyle {\overline {X}}_{n}} {\displaystyle {\overline {X}}_{n}} ersetzt, liefert dies die sogenannte Stichprobenvarianz. Aus diesem Grund stellt wie oben gezeigt die Stichprobenvarianz

V n ( X ) = 1 n i = 1 n ( X i X ¯ n ) 2 {\displaystyle V_{n}(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}} {\displaystyle V_{n}(X)={\frac {1}{n}}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}}

eine induktive Entsprechung der Varianz im stochastischen Sinne dar.[40]

Bedingte Varianzen

Hauptartikel: Bedingte Varianz

Analog zu bedingten Erwartungswerten lassen sich beim Vorliegen von Zusatzinformationen, wie beispielsweise den Werten einer weiteren Zufallsvariable, bedingte Varianzen bedingter Verteilungen betrachten. Es seien X {\displaystyle X} {\displaystyle X} und Y {\displaystyle Y} {\displaystyle Y} zwei reelle Zufallsvariablen, dann heißt die Varianz von X {\displaystyle X} {\displaystyle X}, die auf Y = y {\displaystyle Y=y} {\displaystyle Y=y} konditioniert ist

Var ( X Y = y ) = E ( ( X E ( X y ) ) 2 y ) {\displaystyle \operatorname {Var} (X\mid Y=y)=\mathbb {E} {\bigl (}(X-\mathbb {E} (X\mid y))^{2}\mid y{\bigr )}} {\displaystyle \operatorname {Var} (X\mid Y=y)=\mathbb {E} {\bigl (}(X-\mathbb {E} (X\mid y))^{2}\mid y{\bigr )}}[41]

die bedingte Varianz von X {\displaystyle X} {\displaystyle X} gegeben Y = y {\displaystyle Y=y} {\displaystyle Y=y} (oder Varianz von X {\displaystyle X} {\displaystyle X} bedingt auf Y = y {\displaystyle Y=y} {\displaystyle Y=y}).[42] Um die „gewöhnliche " Varianz Var ( X ) {\displaystyle \operatorname {Var} (X)} {\displaystyle \operatorname {Var} (X)} stärker von der bedingten Varianz Var ( X Y = y ) {\displaystyle \operatorname {Var} (X\mid Y=y)} {\displaystyle \operatorname {Var} (X\mid Y=y)} zu unterscheiden, spricht man bei der gewöhnlichen Varianz auch von der unbedingten Varianz.

Verallgemeinerungen

Varianz-Kovarianz-Matrix

Hauptartikel: Kovarianzmatrix

Im Falle eines reellen Zufallsvektors X = ( X 1 , , X p ) {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{p})^{\top }} {\displaystyle {\boldsymbol {X}}=(X_{1},\dots ,X_{p})^{\top }} mit dem dazugehörigen Erwartungswertvektor [43] μ = ( μ 1 , , μ p ) {\displaystyle {\boldsymbol {\mu }}=(\mu _{1},\dots ,\mu _{p})^{\top }} {\displaystyle {\boldsymbol {\mu }}=(\mu _{1},\dots ,\mu _{p})^{\top }} verallgemeinert sich die Varianz beziehungsweise Kovarianz zu der symmetrischen Varianz-Kovarianz-Matrix (oder einfach Kovarianzmatrix) des Zufallsvektors:

Σ := E ( ( X μ ) ( X μ ) ) {\displaystyle {\boldsymbol {\Sigma }}:=\mathbb {E} \left(({\boldsymbol {X}}-{\boldsymbol {\mu }})({\boldsymbol {X}}-{\boldsymbol {\mu }})^{\top }\right)} {\displaystyle {\boldsymbol {\Sigma }}:=\mathbb {E} \left(({\boldsymbol {X}}-{\boldsymbol {\mu }})({\boldsymbol {X}}-{\boldsymbol {\mu }})^{\top }\right)}.[44]

Der Eintrag der i {\displaystyle i} {\displaystyle i}-ten Zeile und j {\displaystyle j} {\displaystyle j}-ten Spalte der Varianz-Kovarianz-Matrix Σ {\displaystyle {\boldsymbol {\Sigma }}} {\displaystyle {\boldsymbol {\Sigma }}} ist die Kovarianz Cov ( X i , X j ) , i j {\displaystyle \operatorname {Cov} (X_{i},X_{j}),\;i\neq j} {\displaystyle \operatorname {Cov} (X_{i},X_{j}),\;i\neq j} der Zufallsvariablen X i {\displaystyle X_{i}} {\displaystyle X_{i}} und X j {\displaystyle X_{j}} {\displaystyle X_{j}} und in der Diagonale stehen die Varianzen Cov ( X i , X i ) = Var ( X i ) {\displaystyle \operatorname {Cov} (X_{i},X_{i})=\operatorname {Var} (X_{i})} {\displaystyle \operatorname {Cov} (X_{i},X_{i})=\operatorname {Var} (X_{i})}.[45] Da die Kovarianzen ein Maß für die Korrelation zwischen Zufallsvariablen darstellen und die Varianzen lediglich ein Maß für die Variabilität, enthält die Varianz-Kovarianz-Matrix Informationen über die Streuung und Korrelationen zwischen all seinen Komponenten. Da die Varianzen und Kovarianzen per Definition stets nicht-negativ sind, gilt analog für die Varianz-Kovarianz-Matrix, dass sie positiv semidefinit ist.[46] Die Varianz-Kovarianz-Matrix dient bei der Beurteilung von Schätzern als Effizienzkriterium. Im Allgemeinen gilt, dass sich die Effizienz eines Parameterschätzers anhand der „Größe" seiner Varianz-Kovarianz-Matrix messen lässt. Es gilt: je „kleiner" die Varianz-Kovarianz-Matrix, desto „größer" die Effizienz des Schätzers.

Matrixnotation für die Varianz einer Linearkombination

Es sei X {\displaystyle {\boldsymbol {X}}} {\displaystyle {\boldsymbol {X}}} ein Spaltenvektor von p {\displaystyle p} {\displaystyle p} Zufallsvariablen X 1 , , X p {\displaystyle X_{1},\ldots ,X_{p}} {\displaystyle X_{1},\ldots ,X_{p}}, und a {\displaystyle {\boldsymbol {a}}} {\displaystyle {\boldsymbol {a}}} ein Spaltenvektor bestehend aus p {\displaystyle p} {\displaystyle p} Skalaren a 1 , , a p {\displaystyle a_{1},\ldots ,a_{p}} {\displaystyle a_{1},\ldots ,a_{p}}. Dies bedeutet, dass a X {\displaystyle {\boldsymbol {a}}^{\top }{\boldsymbol {X}}} {\displaystyle {\boldsymbol {a}}^{\top }{\boldsymbol {X}}} eine Linearkombination dieser Zufallsvariablen ist, wobei a {\displaystyle {\boldsymbol {a}}^{\top }} {\displaystyle {\boldsymbol {a}}^{\top }} die Transponierte von a {\displaystyle {\boldsymbol {a}}} {\displaystyle {\boldsymbol {a}}} bezeichnet. Sei Σ = ( σ i j ) {\displaystyle {\boldsymbol {\Sigma }}=(\sigma _{ij})} {\displaystyle {\boldsymbol {\Sigma }}=(\sigma _{ij})} die Varianz-Kovarianz-Matrix von X {\displaystyle X} {\displaystyle X}. Die Varianz von a X {\displaystyle {\boldsymbol {a}}^{\top }{\boldsymbol {X}}} {\displaystyle {\boldsymbol {a}}^{\top }{\boldsymbol {X}}} ist dann gegeben durch:

Var ( a X ) = a Σ a = i = 1 p j = 1 p a i a j σ i j {\displaystyle \operatorname {Var} ({\boldsymbol {a}}^{\top }{\boldsymbol {X}})={\boldsymbol {a}}^{\top }{\boldsymbol {\Sigma }}{\boldsymbol {a}}=\sum _{i=1}^{p}\sum _{j=1}^{p}a_{i}a_{j}\sigma _{ij}} {\displaystyle \operatorname {Var} ({\boldsymbol {a}}^{\top }{\boldsymbol {X}})={\boldsymbol {a}}^{\top }{\boldsymbol {\Sigma }}{\boldsymbol {a}}=\sum _{i=1}^{p}\sum _{j=1}^{p}a_{i}a_{j}\sigma _{ij}}.[47]

Verwandte Begriffe

Fasst man die Varianz als Streuungsmaß der Verteilung einer Zufallsvariable auf, so ist sie mit den folgenden Streuungsmaßen verwandt:

Wikibooks: Varianz und Standardabweichung  – Lern- und Lehrmaterialien
Commons: Standardabweichung  – Album mit Bildern, Videos und Audiodateien
Commons: Varianz  – Sammlung von Bildern, Videos und Audiodateien
Wiktionary: Varianz  – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Literatur

  • G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. John Wiley & Sons, New York 1989, ISBN 0-471-51074-2.
  • Ludwig Fahrmeir u. a.: Statistik: Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer-Verlag, 2016, ISBN 978-3-662-50371-3.

Anmerkungen

  1. Bei einer symmetrischen Verteilung mit dem Symmetriezentrum x 0 {\displaystyle x_{0}} {\displaystyle x_{0}} gilt: μ = E ( X ) = x 0 {\displaystyle \mu =\mathbb {E} (X)=x_{0}} {\displaystyle \mu =\mathbb {E} (X)=x_{0}}.
  2. Weitere Vorteile des Quadrieren sind zum einen, dass kleine Abweichungen weniger stark gewichtet werden als große Abweichungen, und zum anderen, dass die erste Ableitung eine lineare Funktion ist, was bei Optimierungsüberlegungen von Vorteil ist.
  3. Die Verwendung des Varianzoperators Var ( ) {\displaystyle \operatorname {Var} (\cdot )} {\displaystyle \operatorname {Var} (\cdot )} hebt die Berechnungsoperationen hervor, und mit ihm lässt sich die Gültigkeit bestimmter Rechenoperationen besser ausdrücken.
  4. Mit der Bezeichnung „Träger" und dem Zeichen T {\displaystyle {\mathcal {T}}} {\displaystyle {\mathcal {T}}} bezeichnet man die Menge aller möglichen Ausprägungen beziehungsweise Realisationen einer Zufallsvariablen.

Einzelnachweise

  1. Norbert Henze: Stochastik für Einsteiger: Eine Einführung in die faszinierende Welt des Zufalls. 2016, S. 160.
  2. Von Auer: Ökonometrie. Eine Einführung. 6. Auflage. Springer, 2013, ISBN 978-3-642-40209-8, S. 28.
  3. Volker Heun: Grundlegende Algorithmen: Einführung in den Entwurf und die Analyse effizienter Algorithmen. 2. Auflage. 2003, S. 108.
  4. Gerhard Hübner: Stochastik: Eine Anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker. 3. Auflage, 2002, S. 103.
  5. Patrick Billingsley: Probability and Measure, 3. Aufl., Wiley, 1995, S. 274ff
  6. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 53.
  7. Brockhaus: Brockhaus, Naturwissenschaften und Technik – Sonderausgabe. 1989, S. 188.
  8. Lothar Papula: Mathematik für Ingenieure und Naturwissenschaftler. Band 3: Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung. 1994, S. 338.
  9. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 231.
  10. Von Auer: Ökonometrie. Eine Einführung. 6. Auflage. Springer, 2013, ISBN 978-3-642-40209-8, S. 29.
  11. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. 2016, S. 283.
  12. Ronald Fisher: The correlation between relatives on the supposition of Mendelian Inheritance. 1918.
  13. Lothar Sachs: Statistische Auswertungsmethoden. 1968,1. Auflage, S.436.
  14. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 58.
  15. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 101.
  16. Hans-Otto Georgii: Einführung in die Wahrscheinlichkeitstheorie und Statistik, ISBN 978-3-11035970-1, S. 102 (abgerufen über De Gruyter Online).
  17. Hans-Heinz Wolpers: Mathematikunterricht in der Sekundarstufe II. Band 3: Didaktik der Stochastik. Jahr?, S. 20.
  18. G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1989, S. 40.
  19. W. Zucchini, A. Schlegel, O. Nenadíc, S. Sperlich: Statistik für Bachelor- und Masterstudenten. Springer, 2009, ISBN 978-3-540-88986-1, S. 121.
  20. W. Zucchini, A. Schlegel, O. Nenadíc, S. Sperlich: Statistik für Bachelor- und Masterstudenten. Springer, 2009, ISBN 978-3-540-88986-1, S. 123.
  21. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 232.
  22. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 254.
  23. Wolfgang Viertl, Reinhard Karl: Einführung in die Stochastik: Mit Elementen der Bayes–Statistik und der Analyse unscharfer Information. Jahr?, S. 49.
  24. Ansgar Steland: Basiswissen Statistik. Springer, 2016, ISBN 978-3-662-49948-1, S. 116, eingeschränkte Vorschau in der Google-Buchsuche.
  25. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S. 233.
  26. Gerhard Hübner: Stochastik: Eine Anwendungsorientierte Einführung für Informatiker, Ingenieure und Mathematiker. 3. Auflage, 2002, S. 103.
  27. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 108, doi:10.1515/9783110215274 . 
  28. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 108, doi:10.1515/9783110215274 . 
  29. Lothar Papula: Mathematik für Ingenieure und Naturwissenschaftler. Band 3: Vektoranalysis, Wahrscheinlichkeitsrechnung, Mathematische Statistik, Fehler- und Ausgleichsrechnung. 1994, S. 338.
  30. Klenke: Wahrscheinlichkeitstheorie. 2013, S. 106.
  31. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer, 2016, S. 329.
  32. L. Kruschwitz, S. Husmann: Finanzierung und Investition. Jahr?, S. 471.
  33. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S. 233.
  34. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 86.
  35. Irénée-Jules Bienaymé: "Considérations à l'appui de la découverte de Laplace sur la loi de probabilité dans la méthode des moindres carrés", Comptes rendus de l'Académie des sciences Paris. 37, 1853, S. 309–317.
  36. Michel Loeve: Probability Theory. (= Graduate Texts in Mathematics. Volume 45). 4. Auflage, Springer-Verlag, 1977, ISBN 3-540-90210-4, S. 12.
  37. Leo A. Goodman: On the exact variance of products. In: Journal of the American Statistical Association. Dezember 1960, S. 708–713. doi:10.2307/2281592
  38. Wolfgang Kohn: Statistik: Datenanalyse und Wahrscheinlichkeitsrechnung. Jahr?, S. 250.
  39. Otfried Beyer, Horst Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik. 1976, S. 97.
  40. Georg Neuhaus: Grundkurs Stochastik. Jahr?, S. 290.
  41. Jeffrey M. Wooldrige: Introductory Econometrics: A Modern Approach. 5. Auflage, 2012, S. 736.
  42. Toni C. Stocker, Ingo Steinke: Statistik: Grundlagen und Methodik. de Gruyter Oldenbourg, Berlin 2017, ISBN 978-3-11-035388-4, S. 319.
  43. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications. Springer, 2013, ISBN 978-3-642-34332-2, S. 646.
  44. G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1989, S. 43.
  45. G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1989, S. 43.
  46. Wilfried Hausmann, Kathrin Diener, Joachim Käsler: Derivate, Arbitrage und Portfolio-Selection: Stochastische Finanzmarktmodelle und ihre Anwendungen. 2002, S. 15.
  47. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications. 2013, S. 647.
Normdaten (Sachbegriff): GND: 4078739-4 (lobid, OGND , AKS )
Dieser Artikel befindet sich in einer Auszeichnungskandidatur und wird neu bewertet, beteilige dich an der Diskussion!
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Varianz_(Stochastik)&oldid=171224888"