Cook-Abstand
In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.
Definition
[Bearbeiten | Quelltext bearbeiten ]Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten" könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:
- {\displaystyle {\underset {n\times 1}{\mathbf {y} }}={\underset {n\times p}{\mathbf {X} }}\quad {\underset {p\times 1}{\boldsymbol {\beta }}}\quad +\quad {\underset {n\times 1}{\boldsymbol {\varepsilon }}}},
wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt {\displaystyle {\boldsymbol {\varepsilon }}\sim {\mathcal {N}}\left(\mathbf {0} ,\sigma ^{2}\mathbf {I} \right)} und {\displaystyle {\boldsymbol {\beta }}=\left(\beta _{0},円\beta _{1},\dots ,\beta _{k}\right)^{\top }} der Vektor der Regressionskoeffizienten ist (hierbei ist {\displaystyle p=k+1} die Anzahl der zu schätzenden unbekannten Parameter und {\displaystyle k} die Anzahl der erklärenden Variablen), und {\displaystyle \mathbf {X} } die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann {\displaystyle {\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} }, woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:
- {\displaystyle \mathbf {\hat {y}} =\mathbf {X} {\hat {\boldsymbol {\beta }}}=\underbrace {\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} _{=\mathbf {P} }\mathbf {y} =\mathbf {P} \mathbf {y} },
wobei {\displaystyle \mathbf {P} \equiv \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} die Prädiktionsmatrix darstellt. Das {\displaystyle i}te Diagonalelement von {\displaystyle \mathbf {P} ,円} ist gegeben durch {\displaystyle p_{ii}\equiv \mathbf {x} _{i}^{\top }\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {x} _{i}}, wobei {\displaystyle \mathbf {x} _{i}^{\top }} die {\displaystyle i}-te Zeile der Datenmatrix {\displaystyle \mathbf {X} } ist.[1] Die Werte werden auch als „Hebelwerte" der {\displaystyle i}ten Beobachtung bezeichnet. Um den Einfluss eines Punktes {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf {\displaystyle {\boldsymbol {\beta }}} und {\displaystyle \mathbf {\hat {y}} =\mathbf {X} {\hat {\boldsymbol {\beta }}}}. Der Schätzer von {\displaystyle {\boldsymbol {\beta }}}, der dadurch gewonnen wird, dass die {\displaystyle i}te Beobachtung {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} ausgelassen wird, ist gegeben durch {\displaystyle {\hat {\boldsymbol {\beta }}}_{(i)}=(\mathbf {X} _{(i)}^{\top }\mathbf {X} _{(i)})^{-1}\mathbf {X} _{(i)}^{\top }\mathbf {y} _{(i)}}.[2] Man kann {\displaystyle {\hat {\boldsymbol {\beta }}}_{(i)}} mit {\displaystyle {\hat {\boldsymbol {\beta }}}} mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3] [4]
- {\displaystyle D_{i}={\frac {({\hat {\boldsymbol {\beta }}}_{(i)}-{\hat {\boldsymbol {\beta }}})^{\top }(\mathbf {X} ^{\top }\mathbf {X} )({\hat {\boldsymbol {\beta }}}_{(i)}-{\hat {\boldsymbol {\beta }}})}{(k+1)s^{2}}}={\frac {(\mathbf {X} {\hat {\boldsymbol {\beta }}}_{(i)}-\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\top }(\mathbf {X} {\hat {\boldsymbol {\beta }}}_{(i)}-\mathbf {X} {\hat {\boldsymbol {\beta }}})}{(k+1)s^{2}}}={\frac {({\hat {\mathbf {y} }}_{(i)}-{\hat {\mathbf {y} }})^{\top }({\hat {\mathbf {y} }}_{(i)}-{\hat {\mathbf {y} }})}{(k+1)s^{2}}}},
wobei {\displaystyle s^{2}} die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß {\displaystyle D_{i}} ist proportional zum gewöhnlichen euklidischen Abstand zwischen {\displaystyle {\hat {\mathbf {y} }}_{(i)}} und {\displaystyle {\hat {\mathbf {y} }}}. Daher ist {\displaystyle D_{i}} groß, wenn die Beobachtung {\displaystyle (y_{i},\mathbf {x} _{i}^{\top })} eine substantiellen Einfluss auf sowohl {\displaystyle {\hat {\boldsymbol {\beta }}}}, als auch {\displaystyle {\hat {\mathbf {y} }}} hat.
Eine numerisch einfachere Darstellung von {\displaystyle D_{i}} ist gegeben durch:[5]
- {\displaystyle D_{i}={\frac {t_{i}^{2}}{k+1}}\left({\frac {p_{ii}}{1-p_{ii}}}\right)},
wobei {\displaystyle t_{i}} die studentisierten Residuen {\displaystyle t_{i}={{\widehat {\varepsilon }}_{i} \over s_{(i)}^{2}{\sqrt {1-p_{ii}\ }}}} darstellen.
Erkennen von stark einflussreichen Beobachtungen
[Bearbeiten | Quelltext bearbeiten ]Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel {\displaystyle D_{i}>1} vorgeschlagen.[6] Andere Autoren haben {\displaystyle D_{i}>4/n} vorgeschlagen, wobei {\displaystyle n} die Anzahl der Beobachtungen ist.[7]
Siehe auch
[Bearbeiten | Quelltext bearbeiten ]Literatur
[Bearbeiten | Quelltext bearbeiten ]- Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008
Einzelnachweise
[Bearbeiten | Quelltext bearbeiten ]- ↑ Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
- ↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
- ↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
- ↑ R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
- ↑ Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.