Fisher-Information

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Die Fisher-Information (benannt nach dem Statistiker Ronald Fisher) ist eine Kenngröße aus der mathematischen Statistik, die für eine Familie von Wahrscheinlichkeitsdichten definiert werden kann und Aussagen über die bestmögliche Qualität von Parameterschätzungen in diesem Modell liefert. Die Fisher-Information spielt in der asymptotischen Theorie der Maximum-Likelihood-Schätzung eine wichtige Rolle und wird auch in der Bayes-Statistik bei der Berechnung von Priorverteilungen verwendet. Sie kann auch bei der Formulierung von Teststatistiken, wie beim Wald-Test verwendet werden.

Gegeben sei ein einparametriges statistisches Standardmodell ( X , A , ( P ϑ ) ϑ Θ ) {\displaystyle (X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })} {\displaystyle (X,{\mathcal {A}},(P_{\vartheta })_{\vartheta \in \Theta })}, das heißt,

  • es ist Θ R {\displaystyle \Theta \subset \mathbb {R} } {\displaystyle \Theta \subset \mathbb {R} },
  • die P ϑ {\displaystyle P_{\vartheta }} {\displaystyle P_{\vartheta }} besitzen alle eine Dichtefunktion f ( x , ϑ ) {\displaystyle f(x,\vartheta )} {\displaystyle f(x,\vartheta )} bezüglich eines festen σ-endlichen Maßes μ {\displaystyle \mu } {\displaystyle \mu }, das heißt, sie bilden eine dominierte Verteilungsklasse.

Des Weiteren sei Θ {\displaystyle \Theta } {\displaystyle \Theta } eine offene Menge und es existiere die Score-Funktion

S ϑ ( x ) := ϑ ln f ( x , ϑ ) = ϑ f ( x , ϑ ) f ( x , ϑ ) {\displaystyle S_{\vartheta }(x):={\frac {\partial }{\partial \vartheta }}\ln f(x,\vartheta )={\frac {{\frac {\partial }{\partial \vartheta }}f(x,\vartheta )}{f(x,\vartheta )}}} {\displaystyle S_{\vartheta }(x):={\frac {\partial }{\partial \vartheta }}\ln f(x,\vartheta )={\frac {{\frac {\partial }{\partial \vartheta }}f(x,\vartheta )}{f(x,\vartheta )}}}

und sei endlich. Dann wird die Fisher-Information des Modells entweder definiert als [1]

I ( ϑ ) := Var ϑ ( S ϑ ) {\displaystyle I(\vartheta ):=\operatorname {Var} _{\vartheta }(S_{\vartheta })} {\displaystyle I(\vartheta ):=\operatorname {Var} _{\vartheta }(S_{\vartheta })}

oder als[2]

I ( ϑ ) := E ϑ ( S ϑ 2 ) {\displaystyle I(\vartheta ):=\operatorname {E} _{\vartheta }(S_{\vartheta }^{2})} {\displaystyle I(\vartheta ):=\operatorname {E} _{\vartheta }(S_{\vartheta }^{2})}.

Dabei bezeichnet E ϑ {\displaystyle \operatorname {E} _{\vartheta }} {\displaystyle \operatorname {E} _{\vartheta }} den Erwartungswert und Var ϑ {\displaystyle \operatorname {Var} _{\vartheta }} {\displaystyle \operatorname {Var} _{\vartheta }} bezeichnet die Varianz bezüglich der Wahrscheinlichkeitsverteilung P ϑ {\displaystyle P_{\vartheta }} {\displaystyle P_{\vartheta }}. Unter der Regularitätsbedingung

ϑ f ( x , ϑ ) d μ ( x ) = ϑ f ( x , ϑ ) d μ ( x ) {\displaystyle \int {\frac {\partial }{\partial \vartheta }},円f(x,\vartheta ),円\mathrm {d} \mu (x)={\frac {\partial }{\partial \vartheta }}\int f(x,\vartheta ),円\mathrm {d} \mu (x)} {\displaystyle \int {\frac {\partial }{\partial \vartheta }},円f(x,\vartheta ),円\mathrm {d} \mu (x)={\frac {\partial }{\partial \vartheta }}\int f(x,\vartheta ),円\mathrm {d} \mu (x)}

fallen die beiden Definitionen zusammen. Gilt zusätzlich die Regularitätsbedingung

2 ϑ 2 f ( x , ϑ ) d μ ( x ) = 2 ϑ 2 f ( x , ϑ ) d μ ( x ) {\displaystyle \int {\frac {\partial ^{2}}{\partial \vartheta ^{2}}},円f(x,\vartheta ),円\mathrm {d} \mu (x)={\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\int f(x,\vartheta ),円\mathrm {d} \mu (x)} {\displaystyle \int {\frac {\partial ^{2}}{\partial \vartheta ^{2}}},円f(x,\vartheta ),円\mathrm {d} \mu (x)={\frac {\partial ^{2}}{\partial \vartheta ^{2}}}\int f(x,\vartheta ),円\mathrm {d} \mu (x)},

so ist die Fisher-Information gegeben durch

I ( ϑ ) = E ϑ ( ϑ S ϑ ) {\displaystyle I(\vartheta )=-\operatorname {E} _{\vartheta }\left({\frac {\partial }{\partial \vartheta }}S_{\vartheta }\right)} {\displaystyle I(\vartheta )=-\operatorname {E} _{\vartheta }\left({\frac {\partial }{\partial \vartheta }}S_{\vartheta }\right)}.

Bemerkungen zur Definition

[Bearbeiten | Quelltext bearbeiten ]

Folgende Dinge sind bei der Definition zu beachten:

  • Daraus, dass das Modell einparametrisch ist, folgt nicht, dass es sich um Wahrscheinlichkeitsverteilungen über einem eindimensionalen Grundraum handelt. Einparametrig bedeutet lediglich, dass die Verteilungen durch einen eindimensionalen Parameter bestimmt werden. An die Dimension des Grundraumes werden keine Anforderungen gestellt.
  • In den meisten Fällen ist das Maß μ {\displaystyle \mu } {\displaystyle \mu }, bezüglich dessen die Dichtefunktionen definiert sind, entweder das Lebesgue-Maß λ {\displaystyle \lambda } {\displaystyle \lambda } oder das Zählmaß. Handelt es sich um das Zählmaß, so sind die Dichtefunktionen Wahrscheinlichkeitsfunktionen, das Integral wird dementsprechend durch eine Summe ersetzt. Handelt es sich um das Lebesgue-Maß, so ist das Integral ein Lebesgue-Integral, kann jedoch in den meisten Fällen durch das herkömmliche Riemann-Integral ersetzt werden. Man schreibt dann dementsprechend d x {\displaystyle \mathrm {d} x} {\displaystyle \mathrm {d} x} anstelle von d λ ( x ) {\displaystyle \mathrm {d} \lambda (x)} {\displaystyle \mathrm {d} \lambda (x)}.
  • Hinreichend für die Existenz der Score-Funktion ist beispielsweise, dass f ( x , ϑ ) {\displaystyle f(x,\vartheta )} {\displaystyle f(x,\vartheta )} auf ganz X × Θ {\displaystyle X\times \Theta } {\displaystyle X\times \Theta } positiv ist und stetig differenzierbar nach ϑ {\displaystyle \vartheta } {\displaystyle \vartheta }.
  • Die erste Regularitätsbedingung gilt beispielsweise per Definition in regulären statistischen Modellen. Meist zeigt man die Vertauschbarkeit von Integration und Differentiation mit den klassischen Aussagen der Analysis.
  • Unter der ersten Regularitätsbedingung ist die Score-Funktion zentriert, das heißt, es ist E ϑ ( S ϑ ) = 0 {\displaystyle \operatorname {E} _{\vartheta }(S_{\vartheta })=0} {\displaystyle \operatorname {E} _{\vartheta }(S_{\vartheta })=0}. Daraus folgt mittels des Verschiebungssatzes der Varianz die Äquivalenz der ersten beiden Definition der Fisher-Information.

Diskreter Grundraum: Poisson-Verteilung

[Bearbeiten | Quelltext bearbeiten ]

Als statistisches Modell sei der Grundraum X = { 0 , 1 , 2 , } {\displaystyle X=\{0,1,2,\dots \}} {\displaystyle X=\{0,1,2,\dots \}} gegeben, versehen mit der σ-Algebra A = P ( X ) {\displaystyle {\mathcal {A}}={\mathcal {P}}(X)} {\displaystyle {\mathcal {A}}={\mathcal {P}}(X)}, der Potenzmenge. Für λ ( 0 , ) {\displaystyle \lambda \in (0,\infty )} {\displaystyle \lambda \in (0,\infty )} sei P λ {\displaystyle P_{\lambda }} {\displaystyle P_{\lambda }} die Poisson-Verteilung. Demnach ist die Dichtefunktion, hier bezüglich des Zählmaßes, gegeben durch

f ( x , λ ) = λ x x ! e λ {\displaystyle f(x,\lambda )={\frac {\lambda ^{x}}{x!}},円\mathrm {e} ^{-\lambda }} {\displaystyle f(x,\lambda )={\frac {\lambda ^{x}}{x!}},円\mathrm {e} ^{-\lambda }}.

Damit ergibt sich die Score-Funktion zu

S λ ( x ) = λ ln f ( x , λ ) = λ ( x ln ( λ ) ln ( x ! ) λ ) = x λ 1 {\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(x\ln(\lambda )-\ln(x!)-\lambda \right)={\frac {x}{\lambda }}-1} {\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(x\ln(\lambda )-\ln(x!)-\lambda \right)={\frac {x}{\lambda }}-1}

Damit ist die Fisher-Information nach den Rechenregeln für die Varianz unter linearen Transformationen

I ( λ ) = Var λ ( S λ ) = 1 λ {\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda }}} {\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda }}}.

Stetiger Grundraum: Exponentialverteilung

[Bearbeiten | Quelltext bearbeiten ]

Als statistisches Modell sei diesmal X = ( 0 , ) {\displaystyle X=(0,\infty )} {\displaystyle X=(0,\infty )} und A = B ( ( 0 , ) ) {\displaystyle {\mathcal {A}}={\mathcal {B}}((0,\infty ))} {\displaystyle {\mathcal {A}}={\mathcal {B}}((0,\infty ))} gewählt. Die P λ {\displaystyle P_{\lambda }} {\displaystyle P_{\lambda }} seien Exponentialverteilt zum Parameter λ ( 0 , ) {\displaystyle \lambda \in (0,\infty )} {\displaystyle \lambda \in (0,\infty )}. Somit besitzen sie die Dichtefunktion (bezüglich des Lebesgue-Maßes)

f ( x , λ ) = λ exp ( λ x ) {\displaystyle f(x,\lambda )=\lambda \exp(-\lambda x)} {\displaystyle f(x,\lambda )=\lambda \exp(-\lambda x)}.

Demnach ist die Score-Funktion

S λ ( x ) = λ ln f ( x , λ ) = λ ( ln ( λ ) λ x ) = 1 λ x {\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(\ln(\lambda )-\lambda x\right)={\frac {1}{\lambda }}-x} {\displaystyle S_{\lambda }(x)={\frac {\partial }{\partial \lambda }}\ln f(x,\lambda )={\frac {\partial }{\partial \lambda }}\left(\ln(\lambda )-\lambda x\right)={\frac {1}{\lambda }}-x},

folglich ist die Fisher-Information

I ( λ ) = Var λ ( S λ ) = 1 λ 2 {\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda ^{2}}}} {\displaystyle I(\lambda )=\operatorname {Var} _{\lambda }(S_{\lambda })={\frac {1}{\lambda ^{2}}}}

Fisher-Information einer Exponentialfamilie

[Bearbeiten | Quelltext bearbeiten ]

Ist P ϑ {\displaystyle P_{\vartheta }} {\displaystyle P_{\vartheta }} durch eine einparametrige Exponentialfamilie gegeben, besitzt also die Dichtefunktion

f ( x , ϑ ) = h ( x ) A ( ϑ ) exp ( η ( ϑ ) T ( x ) ) {\displaystyle f(x,\vartheta )=h(x)A(\vartheta )\exp(\eta (\vartheta )T(x))} {\displaystyle f(x,\vartheta )=h(x)A(\vartheta )\exp(\eta (\vartheta )T(x))},

so ist die Score-Funktion gegeben durch

S ϑ ( x ) = η ( ϑ ) T ( x ) + A ( ϑ ) A ( ϑ ) {\displaystyle S_{\vartheta }(x)=\eta '(\vartheta )T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}} {\displaystyle S_{\vartheta }(x)=\eta '(\vartheta )T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}}.

Daraus folgt für die Fisher-Information

I ( ϑ ) = [ η ( ϑ ) ] 2 Var ϑ ( T ( x ) ) {\displaystyle I(\vartheta )=\left[\eta '(\vartheta )\right]^{2}\cdot \operatorname {Var} _{\vartheta }(T(x))} {\displaystyle I(\vartheta )=\left[\eta '(\vartheta )\right]^{2}\cdot \operatorname {Var} _{\vartheta }(T(x))}.

Ist die Exponentialfamilie in der natürlichen Parametrisierung gegeben, als η ( ϑ ) = ϑ {\displaystyle \eta (\vartheta )=\vartheta } {\displaystyle \eta (\vartheta )=\vartheta }, so vereinfacht sich dies zu

S ϑ ( x ) = T ( x ) + A ( ϑ ) A ( ϑ )  und  I ( ϑ ) = Var ϑ ( T ( x ) ) {\displaystyle S_{\vartheta }(x)=T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}{\text{ und }}I(\vartheta )=\operatorname {Var} _{\vartheta }(T(x))} {\displaystyle S_{\vartheta }(x)=T(x)+{\frac {A'(\vartheta )}{A(\vartheta )}}{\text{ und }}I(\vartheta )=\operatorname {Var} _{\vartheta }(T(x))}

In diesem Fall ist also die Varianz der kanonischen Statistik T {\displaystyle T} {\displaystyle T} die Fisher-Information.

Eigenschaften und Anwendungen

[Bearbeiten | Quelltext bearbeiten ]

Die Fisher-Information ist im Fall unabhängig und identisch verteilter Zufallsvariablen unter der ersten Regularitätsbedingung additiv, das heißt, für die Fisher-Information I ( n ) {\displaystyle {\mathcal {I}}^{(n)}} {\displaystyle {\mathcal {I}}^{(n)}} einer Stichprobe X 1 , , X n {\displaystyle X_{1},\dotsc ,X_{n}} {\displaystyle X_{1},\dotsc ,X_{n}} unabhängiger und identisch verteilter Zufallsvariabler mit Fisher-Information I {\displaystyle {\mathcal {I}}} {\displaystyle {\mathcal {I}}} gilt

I ( n ) ( ϑ ) = n I ( ϑ ) {\displaystyle {\mathcal {I}}^{(n)}(\vartheta )=n\cdot {\mathcal {I}}(\vartheta )} {\displaystyle {\mathcal {I}}^{(n)}(\vartheta )=n\cdot {\mathcal {I}}(\vartheta )}.

Diese Eigenschaft folgt direkt aus der Gleichung von Bienaymé. Die Fisher-Information nimmt also proportional zur Anzahl n {\displaystyle n} {\displaystyle n} der Beobachtungen zu.

Ferner gilt für suffiziente Statistiken T {\displaystyle T} {\displaystyle T}, dass die Fisher-Information bezüglich f ϑ ( X ) {\displaystyle f_{\vartheta }(X)} {\displaystyle f_{\vartheta }(X)} dieselbe wie für g ϑ ( T ( X ) ) {\displaystyle g_{\vartheta }(T(X))} {\displaystyle g_{\vartheta }(T(X))} ist, wobei f ϑ ( x ) = h ( x ) g ϑ ( T ( x ) ) {\displaystyle f_{\vartheta }(x)=h(x)g_{\vartheta }(T(x))} {\displaystyle f_{\vartheta }(x)=h(x)g_{\vartheta }(T(x))} gilt.

Benutzt wird die Fisher-Information speziell in der Cramér-Rao-Ungleichung, wo ihr Kehrwert bei Gültigkeit der angesprochenen Regularitätsbedingung eine untere Schranke für die Varianz eines Schätzers für ϑ {\displaystyle \vartheta } {\displaystyle \vartheta } liefert: Ist T ( X ) {\displaystyle T(X)} {\displaystyle T(X)} ein erwartungstreuer Schätzer für den unbekannten Parameter ϑ {\displaystyle \vartheta } {\displaystyle \vartheta }, dann gilt Var ϑ ( T ( X ) ) I ( ϑ ) 1 {\displaystyle \operatorname {Var} _{\vartheta }(T(X))\geq {\mathcal {I}}(\vartheta )^{-1}} {\displaystyle \operatorname {Var} _{\vartheta }(T(X))\geq {\mathcal {I}}(\vartheta )^{-1}}.

Erweiterungen auf höhere Dimensionen

[Bearbeiten | Quelltext bearbeiten ]

Falls das Modell von mehreren Parametern ϑ i {\displaystyle \vartheta _{i}} {\displaystyle \vartheta _{i}} mit 1 i k {\displaystyle 1\leq i\leq k} {\displaystyle 1\leq i\leq k} abhängt, lässt sich die Fisher-Information als symmetrische Matrix I ( ϑ ) = ( I i j ( ϑ ) ) i , j = 1 , , k {\displaystyle {\mathcal {I}}(\vartheta )=({\mathcal {I}}_{ij}(\vartheta ))_{i,j=1,\dotsc ,k}} {\displaystyle {\mathcal {I}}(\vartheta )=({\mathcal {I}}_{ij}(\vartheta ))_{i,j=1,\dotsc ,k}} definieren, wobei

I i j ( ϑ ) = E ϑ [ ϑ i log f ϑ ( X ) ϑ j log f ϑ ( X ) ] {\displaystyle {\mathcal {I}}_{ij}(\vartheta )=\operatorname {E} _{\vartheta }\left[{\frac {\partial }{\partial \vartheta _{i}}}\log f_{\vartheta }(X)\cdot {\frac {\partial }{\partial \vartheta _{j}}}\log f_{\vartheta }(X)\right]} {\displaystyle {\mathcal {I}}_{ij}(\vartheta )=\operatorname {E} _{\vartheta }\left[{\frac {\partial }{\partial \vartheta _{i}}}\log f_{\vartheta }(X)\cdot {\frac {\partial }{\partial \vartheta _{j}}}\log f_{\vartheta }(X)\right]}

gilt. Sie wird die Fisher-Informationsmatrix genannt. Die Eigenschaften bleiben im Wesentlichen erhalten. Unter der Regularitätsbedingung ist I ( ϑ ) {\displaystyle {\mathcal {I}}(\vartheta )} {\displaystyle {\mathcal {I}}(\vartheta )} die Kovarianzmatrix der Score-Funktion.

Beispiel: Normalverteilung

[Bearbeiten | Quelltext bearbeiten ]

Ist X {\displaystyle X} {\displaystyle X} normalverteilt mit Erwartungswert ϑ {\displaystyle \vartheta } {\displaystyle \vartheta } als Parameter und bekannter Varianz v > 0 {\displaystyle v>0} {\displaystyle v>0}, dann ist f ϑ ( x ) = 1 2 π v e ( x ϑ ) 2 2 v {\displaystyle f_{\vartheta }(x)={\frac {1}{\sqrt {2\pi v}}}\mathrm {e} ^{-{\frac {(x-\vartheta )^{2}}{2v}}}} {\displaystyle f_{\vartheta }(x)={\frac {1}{\sqrt {2\pi v}}}\mathrm {e} ^{-{\frac {(x-\vartheta )^{2}}{2v}}}}. Es folgt

ϑ log f ϑ ( x ) = x ϑ v {\displaystyle {\frac {\partial }{\partial \vartheta }}\log f_{\vartheta }(x)={\frac {x-\vartheta }{v}}} {\displaystyle {\frac {\partial }{\partial \vartheta }}\log f_{\vartheta }(x)={\frac {x-\vartheta }{v}}},

also

I ( ϑ ) = Var ( X ϑ v ) = 1 v {\displaystyle {\mathcal {I}}(\vartheta )=\operatorname {Var} \left({\frac {X-\vartheta }{v}}\right)={\frac {1}{v}}} {\displaystyle {\mathcal {I}}(\vartheta )=\operatorname {Var} \left({\frac {X-\vartheta }{v}}\right)={\frac {1}{v}}}.

Betrachtet man dagegen sowohl den Erwartungswert ϑ {\displaystyle \vartheta } {\displaystyle \vartheta } als auch die Varianz v {\displaystyle v} {\displaystyle v} als unbekannte Parameter, so ergibt sich

I ( ϑ , v ) = ( 1 v 0 0 1 2 v 2 ) {\displaystyle {\mathcal {I}}(\vartheta ,v)={\begin{pmatrix}{\dfrac {1}{v}}&0\0円&{\dfrac {1}{2v^{2}}}\end{pmatrix}}} {\displaystyle {\mathcal {I}}(\vartheta ,v)={\begin{pmatrix}{\dfrac {1}{v}}&0\0円&{\dfrac {1}{2v^{2}}}\end{pmatrix}}}

als Fisher-Informationsmatrix.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten ]
  1. Georgii: Stochastik. 2009, S. 210.
  2. Czado Schmidt: Mathematische Statistik. 2011, S. 116.
Normdaten (Sachbegriff): GND: 7576378-3 (lobid, OGND , AKS )
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Fisher-Information&oldid=252183880"