Erklärte Quadratsumme

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Diese Grafik zeigt die Quadratsummenzerlegung, d. h. die Zerlegung der totalen Quadratsumme in die erklärte Quadratsumme und die Residuenquadratsumme. Die Summe der grünen Abweichungsquadrate ist die erklärte Quadratsumme, die der roten die Residuenquadratsumme, die der blauen die totale Quadratsumme.

In der Statistik ist die (durch die Regression) erklärte Quadratsumme, bzw. erklärte Abweichungsquadratsumme, kurz SQE für Summe der Quadrate der Erklärten Abweichungen (englisch sum of squared explained deviations, kurz SSE oder explained sum of squares, kurz ESS), Summe der Abweichungsquadrate der y ^ {\displaystyle {\hat {y}}} {\displaystyle {\hat {y}}} -Werte, kurz S A Q y ^ {\displaystyle SAQ_{\hat {y}}} {\displaystyle SAQ_{\hat {y}}}, bzw. SAQErklärt, oft auch Modellquadratsumme oder Regressionsquadratsumme, die Quadratsumme der Schätzwerte bzw. Regresswerte. Sie wird berechnet als Summe der Quadrate der zentrierten Schätzwerte und kann als „Gesamtvariation der Schätzwerte { y ^ i } {\displaystyle \{{\hat {y}}_{i}\}} {\displaystyle \{{\hat {y}}_{i}\}}" („erklärte Variation") interpretiert werden. Über die genaue Bezeichnung und ihre Abkürzungen gibt es international keine Einigkeit.[1] In der deutschsprachigen Literatur wird manchmal die deutsche Bezeichnung mit englischen Abkürzungen gebraucht.[2]

Die erklärte (Abweichungs-)Quadratsumme bzw. Regressionsquadratsumme ist definiert als Quadratsumme der durch die Regressionsfunktion erklärten Abweichungen ( y ^ i y ¯ ) {\displaystyle ({\hat {y}}_{i}-{\overline {y}})} {\displaystyle ({\hat {y}}_{i}-{\overline {y}})}:[1]

S Q E = S Q E r k l a ¨ r t i = 1 n ( y ^ i y ¯ ) 2 = i = 1 n ( y ^ i y ^ ¯ ) 2 {\displaystyle SQE=SQ_{\mathrm {Erkl{\ddot {a}}rt} }\equiv \sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}} {\displaystyle SQE=SQ_{\mathrm {Erkl{\ddot {a}}rt} }\equiv \sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}}

Manchmal findet sich auch die Abkürzung S Q R {\displaystyle SQR} {\displaystyle SQR} bzw. S Q Regression {\displaystyle SQ_{\text{Regression}}} {\displaystyle SQ_{\text{Regression}}}. Dieser Ausdruck, kann allerdings leicht mit der „Residuenquadratsumme" (englisch sum of squared residuals) verwechselt werden, die ebenfalls mit S Q R {\displaystyle SQR} {\displaystyle SQR} abgekürzt wird.

Wenn das zugrundeliegende lineare Modell ein von Null verschiedenes Absolutglied β 0 {\displaystyle \beta _{0}} {\displaystyle \beta _{0}} enthält, stimmt der empirische Mittelwert der Schätzwerte y ^ i {\displaystyle {\hat {y}}_{i}} {\displaystyle {\hat {y}}_{i}} mit dem der beobachteten Messwerte y i {\displaystyle y_{i}} {\displaystyle y_{i}} überein, also y ^ ¯ = 1 n i = 1 n y i ^ = y ¯ {\displaystyle \textstyle {\overline {\hat {y}}}={\tfrac {1}{n}}\sum \nolimits _{i=1}^{n}{\hat {y_{i}}}={\overline {y}}} {\displaystyle \textstyle {\overline {\hat {y}}}={\tfrac {1}{n}}\sum \nolimits _{i=1}^{n}{\hat {y_{i}}}={\overline {y}}} (für einen Beweis im multiplen Fall siehe Bestimmtheitsmaß#Matrixschreibweise). Die erklärte Quadratsumme misst die Streuung der Schätzwerte y ^ i {\displaystyle {\hat {y}}_{i}} {\displaystyle {\hat {y}}_{i}} um ihren Mittelwert y ^ ¯ = y ¯ {\displaystyle {\overline {\hat {y}}}={\overline {y}}} {\displaystyle {\overline {\hat {y}}}={\overline {y}}}. Das Verhältnis der durch die Regression erklärten Quadratsumme zur totalen Quadratsumme wird Bestimmtheitsmaß der Regression genannt.

Einfache lineare Regression

[Bearbeiten | Quelltext bearbeiten ]

In der einfachen linearen Regression (Modell mit nur einer erklärenden Variable) y i = β 0 + x i β 1 + ε i {\displaystyle y_{i}=\beta _{0}+x_{i}\beta _{1}+\varepsilon _{i}} {\displaystyle y_{i}=\beta _{0}+x_{i}\beta _{1}+\varepsilon _{i}} lässt sich die erklärte Quadratsumme auch wie folgt ausdrücken:

S Q E = i = 1 n ( y ^ i y ¯ ) 2 = i = 1 n ( y ^ i ( β ^ 0 + β ^ 1 x ¯ ) ) 2 {\displaystyle SQE=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\sum _{i=1}^{n}({\hat {y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}))^{2}} {\displaystyle SQE=\sum _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\sum _{i=1}^{n}({\hat {y}}_{i}-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}))^{2}}.

Hierbei stellen die y ^ i = β ^ 0 + β ^ 1 x {\displaystyle {\hat {y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x} {\displaystyle {\hat {y}}_{i}={\hat {\beta }}_{0}+{\hat {\beta }}_{1}x} die vorhergesagten Werte dar und β ^ 0 {\displaystyle {\hat {\beta }}_{0}} {\displaystyle {\hat {\beta }}_{0}} ist die Schätzung des Absolutglieds und β ^ 1 {\displaystyle {\hat {\beta }}_{1}} {\displaystyle {\hat {\beta }}_{1}} die Schätzung des Steigungsparameters. Aus dieser Schreibweise lässt sich erkennen, dass sich die erklärte Quadratsumme auch darstellen lässt als Produkt aus dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten r x y 2 {\displaystyle r_{xy}^{2}} {\displaystyle r_{xy}^{2}} und der totalen Quadratsumme S Q T {\displaystyle SQT} {\displaystyle SQT}:[3]

S Q E = S Q T r x y 2 {\displaystyle SQE=SQT\cdot r_{xy}^{2}} {\displaystyle SQE=SQT\cdot r_{xy}^{2}},

wobei β ^ 1 {\displaystyle {\hat {\beta }}_{1}} {\displaystyle {\hat {\beta }}_{1}} der Kleinste-Quadrate-Schätzer für die Steigung β ^ 1 = S P x y / S Q x {\displaystyle {\hat {\beta }}_{1}=SP_{xy}/SQ_{x}} {\displaystyle {\hat {\beta }}_{1}=SP_{xy}/SQ_{x}} der Quotient aus Produktsumme von x {\displaystyle x} {\displaystyle x} und y {\displaystyle y} {\displaystyle y} und Quadratsumme von x {\displaystyle x} {\displaystyle x} ist. Um dies zu zeigen, muss zunächst gezeigt werden, dass wenn das zugrundeliegende lineare Modell ein von Null verschiedenes Absolutglied β 0 {\displaystyle \beta _{0}} {\displaystyle \beta _{0}} enthält, der empirische Mittelwert der Schätzwerte y ^ i {\displaystyle {\hat {y}}_{i}} {\displaystyle {\hat {y}}_{i}} mit dem der beobachteten Messwerte y i {\displaystyle y_{i}} {\displaystyle y_{i}} übereinstimmt. Dies gilt, wegen[4]

y ^ ¯ = 1 n i = 1 n y i ^ = 1 n i = 1 n ( β ^ 0 + β ^ 1 x i ) = β ^ 0 + β ^ 1 x ¯ = y ¯ β ^ 1 x ¯ + β ^ 1 x ¯ = y ¯ {\displaystyle {\overline {\hat {y}}}={\frac {1}{n}}\sum _{i=1}^{n}{\hat {y_{i}}}={\frac {1}{n}}\sum _{i=1}^{n}({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i})={\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}+{\hat {\beta }}_{1}{\overline {x}}={\overline {y}}} {\displaystyle {\overline {\hat {y}}}={\frac {1}{n}}\sum _{i=1}^{n}{\hat {y_{i}}}={\frac {1}{n}}\sum _{i=1}^{n}({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i})={\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}}+{\hat {\beta }}_{1}{\overline {x}}={\overline {y}}}

und daher

S Q E = i = 1 n ( y ^ i y ¯ ) 2 = i = 1 n ( y ^ i y ^ ¯ ) 2 = i = 1 n ( ( β ^ 0 + β ^ 1 x i ) ( β ^ 0 + β ^ 1 x ¯ ) ) 2 = i = 1 n ( β ^ 1 ( x i x ¯ ) ) 2 = β ^ 1 2 i = 1 n ( x i x ¯ ) 2 = β ^ 1 2 S Q x = S Q T r x y 2 {\displaystyle {\begin{aligned}SQE&=\sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\displaystyle \sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}\\&=\displaystyle \sum \nolimits _{i=1}^{n}(({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i})-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}))^{2}\\&=\displaystyle \sum \nolimits _{i=1}^{n}({\hat {\beta }}_{1}(x_{i}-{\overline {x}}))^{2}\\&={\hat {\beta }}_{1}^{2}\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}\\&={\hat {\beta }}_{1}^{2}SQ_{x}\\&=SQT\cdot r_{xy}^{2}\end{aligned}}} {\displaystyle {\begin{aligned}SQE&=\sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {y}})^{2}=\displaystyle \sum \nolimits _{i=1}^{n}({\hat {y}}_{i}-{\overline {\hat {y}}})^{2}\\&=\displaystyle \sum \nolimits _{i=1}^{n}(({\hat {\beta }}_{0}+{\hat {\beta }}_{1}x_{i})-({\hat {\beta }}_{0}+{\hat {\beta }}_{1}{\overline {x}}))^{2}\\&=\displaystyle \sum \nolimits _{i=1}^{n}({\hat {\beta }}_{1}(x_{i}-{\overline {x}}))^{2}\\&={\hat {\beta }}_{1}^{2}\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}\\&={\hat {\beta }}_{1}^{2}SQ_{x}\\&=SQT\cdot r_{xy}^{2}\end{aligned}}},

wobei der letzte Schritt aus der Tatsache folgt, dass sich β ^ 1 {\displaystyle {\hat {\beta }}_{1}} {\displaystyle {\hat {\beta }}_{1}} auch schreiben lässt als:

β ^ 1 = i = 1 n ( x i x ¯ ) 2 i = 1 n ( y i y ¯ ) 2 i = 1 n ( x i x ¯ ) 2 r x y {\displaystyle {\hat {\beta }}_{1}={\frac {{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}}}}{\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}r_{xy}} {\displaystyle {\hat {\beta }}_{1}={\frac {{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}{\sqrt {\displaystyle \sum \nolimits _{i=1}^{n}\left(y_{i}-{\bar {y}}\right)^{2}}}}{\displaystyle \sum \nolimits _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}}}r_{xy}}.

Durch die Quadratsummenzerlegung S Q T = S Q E + S Q R {\displaystyle SQT=SQE+SQR} {\displaystyle SQT=SQE+SQR} bzw. S Q E = S Q T S Q R {\displaystyle SQE=SQT-SQR} {\displaystyle SQE=SQT-SQR} kann man durch ersetzen von S Q E = S Q T S Q R {\displaystyle SQE=SQT-SQR} {\displaystyle SQE=SQT-SQR} in S Q E = S Q T r x y 2 {\displaystyle SQE=SQT\cdot r_{xy}^{2}} {\displaystyle SQE=SQT\cdot r_{xy}^{2}} auf diesem Wege ebenfalls die folgende Darstellung für die Residuenquadratsumme S Q R {\displaystyle SQR} {\displaystyle SQR} finden:

S Q R = S Q T ( 1 r x y 2 ) {\displaystyle SQR=SQT\cdot (1-r_{xy}^{2})} {\displaystyle SQR=SQT\cdot (1-r_{xy}^{2})}.

Matrixschreibweise

[Bearbeiten | Quelltext bearbeiten ]

In Matrixschreibweise kann die erklärte Quadratsumme wie folgt ausgedrückt werden

S Q E = ( y ^ y ¯ ) ( y ^ y ¯ ) = y ^ y ^ n y ^ ¯ 2 = b X y n y ¯ 2 {\displaystyle SQE=\left({\hat {\mathbf {y} }}-{\overline {\mathbf {y} }}\right)^{\top }\left({\hat {\mathbf {y} }}-{\overline {\mathbf {y} }}\right)={\hat {\mathbf {y} }}^{\top }{\hat {\mathbf {y} }}-n{\overline {\hat {y}}}^{2}=\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y} -n{\overline {y}}^{2}} {\displaystyle SQE=\left({\hat {\mathbf {y} }}-{\overline {\mathbf {y} }}\right)^{\top }\left({\hat {\mathbf {y} }}-{\overline {\mathbf {y} }}\right)={\hat {\mathbf {y} }}^{\top }{\hat {\mathbf {y} }}-n{\overline {\hat {y}}}^{2}=\mathbf {b} ^{\top }\mathbf {X} ^{\top }\mathbf {y} -n{\overline {y}}^{2}}.

Hierbei ist y ¯ {\displaystyle {\overline {\mathbf {y} }}} {\displaystyle {\overline {\mathbf {y} }}} ein Vektor mit den Elementen y ¯ {\displaystyle {\overline {y}}} {\displaystyle {\overline {y}}} und y ^ {\displaystyle {\hat {\mathbf {y} }}} {\displaystyle {\hat {\mathbf {y} }}} ist definiert durch y ^ = X b {\displaystyle {\hat {\mathbf {y} }}=\mathbf {X} \mathbf {b} } {\displaystyle {\hat {\mathbf {y} }}=\mathbf {X} \mathbf {b} }, wobei b = ( X X ) 1 X y {\displaystyle \mathbf {b} =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} } {\displaystyle \mathbf {b} =\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} } den Kleinste-Quadrate-Schätzvektor und X {\displaystyle \mathbf {X} } {\displaystyle \mathbf {X} } die Datenmatrix darstellt.

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten ]
  1. a b Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 39.
  2. Moosmüller, Gertrud. Methoden der empirischen Wirtschaftsforschung. Pearson Deutschland GmbH, 2008. S. 239.
  3. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 315.
  4. Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/Heidelberg 2016, ISBN 978-3-662-50371-3, S. 151.
Abweichungsquadratsummen der Quadratsummenzerlegung
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Erklärte_Quadratsumme&oldid=249121156"