Empirische Risikominimierung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Empirische Risikominimierung ist ein häufig angewendetes Prinzip der statistischen Inferenz [1] . Sie wird beim überwachten Lernen verwendet. Beim maschinellen Lernen ist es häufig nicht möglich, alle möglichen Eingabedaten zu kennen oder zu testen. Daher wird bei der empirischen Risikominimierung mit einer bekannten Teilmenge der möglichen Eingabedaten gearbeitet.

Die Risikofunktion ist:

R ( h θ ) = E [ L ( h θ ( x ) , y ) ] = L ( h θ ( x ) , y ) d P ( x , y ) , {\displaystyle R(h_{\theta })=\mathbf {E} [L(h_{\theta }(x),y)]=\int L(h_{\theta }(x),y),円dP(x,y),} {\displaystyle R(h_{\theta })=\mathbf {E} [L(h_{\theta }(x),y)]=\int L(h_{\theta }(x),y),円dP(x,y),}

wobei L eine Verlustfunktion (z. B. die 0-1 Verlustfunktion) ist, h θ {\displaystyle h_{\theta }} {\displaystyle h_{\theta }} eine von den Realisierungen x {\displaystyle x} {\displaystyle x} abhängige und durch θ {\displaystyle \theta } {\displaystyle \theta } parametrisierte Hypothese, y ein Label. Die Risikominimierung hat zum Ziel R ( h θ ) {\displaystyle R(h_{\theta })} {\displaystyle R(h_{\theta })} zu minimieren, indem die Parameter θ {\displaystyle \theta } {\displaystyle \theta } angepasst werden. Beispielsweise minimiert der Bayes-Klassifikator das Risiko einer Falschklassifikation.

Ziel der Lernverfahren ist es die Hypothese h θ {\displaystyle h_{\theta ^{*}}} {\displaystyle h_{\theta ^{*}}} im Raum der untersuchten Hypothesen H {\displaystyle {\mathcal {H}}} {\displaystyle {\mathcal {H}}} zu finden, für das Risiko minimiert wird:

h θ = a r g m i n h H R ( h ) , {\displaystyle h_{\theta ^{*}}={\underset {h\in {\mathcal {H}}}{\operatorname {arg,円min} }},円{R(h)},} {\displaystyle h_{\theta ^{*}}={\underset {h\in {\mathcal {H}}}{\operatorname {arg,円min} }},円{R(h)},}

siehe auch arg min.

In der empirischen Risikominimierung stehen jedoch nicht die echten Wahrscheinlichkeitsdichten P ( x , y ) {\displaystyle P(x,y)} {\displaystyle P(x,y)} zur Verfügung, sodass stattdessen der empirische Schätzer R ^ ( h θ ) = 1 n i = 1 n L ( h θ ( x i ) , y i ) {\displaystyle {\hat {R}}(h_{\theta })={\frac {1}{n}}\sum _{i=1}^{n}L(h_{\theta }(x_{i}),y_{i})} {\displaystyle {\hat {R}}(h_{\theta })={\frac {1}{n}}\sum _{i=1}^{n}L(h_{\theta }(x_{i}),y_{i})} minimiert wird, welcher nach dem Gesetz der großen Zahlen gegen den Erwartungswert konvergiert.

Die Auswahl einer Verlustfunktion entscheidet über die Modellausgabe. Im Rahmen der Probabilistischen Klassifikation können Scoring rules als Verlustfunktion eingesetzt werden um die Wahrscheinlichkeitskalibrierung zu verbessern.

Verlustfunktion Mittlerer quadratischer Fehler

[Bearbeiten | Quelltext bearbeiten ]

Minimierung des mittleren quadratischen Fehlers M S E ( Y ^ ( X ) , Y ) = E Y | X ( ( Y Y ^ ( X ) ) 2 ) {\displaystyle \operatorname {M} SE({\hat {Y}}(X),Y)=\operatorname {E} _{Y|X}\left(\left(Y-{\hat {Y}}(X)\right)^{2}\right)} {\displaystyle \operatorname {M} SE({\hat {Y}}(X),Y)=\operatorname {E} _{Y|X}\left(\left(Y-{\hat {Y}}(X)\right)^{2}\right)} liefert eine Schätzung des bedingten Erwartungswertes [2] : M S E ( Y ^ ( X ) , Y ) Y ^ ( X ) = 2 E Y | X ( ( Y Y ^ ( X ) ) ) = ! 0 E Y | X ( Y Y ^ ( X ) ) = 0 E Y | X ( Y ) = E Y | X ( Y ^ ( X ) ) = Y ^ ( X ) {\displaystyle {\frac {\partial \operatorname {M} SE({\hat {Y}}(X),Y)}{\partial {\hat {Y}}(X)}}=-2\operatorname {E} _{Y|X}\left(\left(Y-{\hat {Y}}(X)\right)\right){\overset {!}{=}}0\implies \operatorname {E} _{Y|X}\left(Y-{\hat {Y}}(X)\right)=0\implies \operatorname {E} _{Y|X}\left(Y\right)=\operatorname {E} _{Y|X}\left({\hat {Y}}(X)\right)={\hat {Y}}(X)} {\displaystyle {\frac {\partial \operatorname {M} SE({\hat {Y}}(X),Y)}{\partial {\hat {Y}}(X)}}=-2\operatorname {E} _{Y|X}\left(\left(Y-{\hat {Y}}(X)\right)\right){\overset {!}{=}}0\implies \operatorname {E} _{Y|X}\left(Y-{\hat {Y}}(X)\right)=0\implies \operatorname {E} _{Y|X}\left(Y\right)=\operatorname {E} _{Y|X}\left({\hat {Y}}(X)\right)={\hat {Y}}(X)}

Verlustfunktion Mittlerer absoluter Fehler

[Bearbeiten | Quelltext bearbeiten ]
Siehe auch: Median-Regression

Minimierung des mittleren absoluten Fehlers M A E ( Y ^ ( X ) , Y ) = E Y | X ( | Y Y ^ ( X ) | ) {\displaystyle \operatorname {M} AE({\hat {Y}}(X),Y)=\operatorname {E} _{Y|X}\left(\left|Y-{\hat {Y}}(X)\right|\right)} {\displaystyle \operatorname {M} AE({\hat {Y}}(X),Y)=\operatorname {E} _{Y|X}\left(\left|Y-{\hat {Y}}(X)\right|\right)} liefert eine Schätzung des bedingten Medians: M A E ( Y ^ ( X ) , Y ) Y ^ ( X ) = ! 0 Y ^ ( X ) = M e d i a n Y | X {\displaystyle {\frac {\partial \operatorname {M} AE({\hat {Y}}(X),Y)}{\partial {\hat {Y}}(X)}}{\overset {!}{=}}0\implies {\hat {Y}}(X)=\mathrm {Median} _{Y|X}} {\displaystyle {\frac {\partial \operatorname {M} AE({\hat {Y}}(X),Y)}{\partial {\hat {Y}}(X)}}{\overset {!}{=}}0\implies {\hat {Y}}(X)=\mathrm {Median} _{Y|X}} wobei beim Beweis auf die Leibnizregel für Parameterintegrale zurückgegriffen wird.

Quantilsverlustfunktion

[Bearbeiten | Quelltext bearbeiten ]
Siehe auch: Quantilregression

Minimierung des Erwartungswertes der Quantilsverlustfunktion liefert die Quantilsschätzung, der Beweis greift (wie beim mittleren absoluten Fehler) auf die Leibnizregel für Parameterintegrale zurück:

0 = Y ^ Q τ ( Y , Y ^ ( X ) ) = Y ^ E Y | X ( w τ ( Y , Y ^ ( X ) ) | Y Y ^ ( X ) | ) , {\displaystyle 0=\partial _{\hat {Y}}Q_{\tau }(Y,{\hat {Y}}(X))=\partial _{\hat {Y}}\operatorname {E} _{Y|X}\left(w_{\tau }(Y,{\hat {Y}}(X))|Y-{\hat {Y}}(X)|\right),} {\displaystyle 0=\partial _{\hat {Y}}Q_{\tau }(Y,{\hat {Y}}(X))=\partial _{\hat {Y}}\operatorname {E} _{Y|X}\left(w_{\tau }(Y,{\hat {Y}}(X))|Y-{\hat {Y}}(X)|\right),} wobei w τ ( Y , Y ^ ( X ) ) = { 1 τ falls Y < Y ^ ( X ) τ falls Y > Y ^ ( X ) . {\displaystyle w_{\tau }(Y,{\hat {Y}}(X))={\begin{cases}1-\tau &{\textrm {falls}}\quad Y<{\hat {Y}}(X)\\\tau &{\textrm {falls}}\quad Y>{\hat {Y}}(X)\end{cases}}.} {\displaystyle w_{\tau }(Y,{\hat {Y}}(X))={\begin{cases}1-\tau &{\textrm {falls}}\quad Y<{\hat {Y}}(X)\\\tau &{\textrm {falls}}\quad Y>{\hat {Y}}(X)\end{cases}}.}

Verlustfunktion Absolute Percentage Error

[Bearbeiten | Quelltext bearbeiten ]

Im Kontext der MAPE-Regression wird die Nähe von g ( X ) {\displaystyle g(X)} {\displaystyle g(X)} zu Y {\displaystyle Y} {\displaystyle Y} durch Mean absolute percentage error gemessen, und das Ziel von MAPE-Regressionen besteht darin, ein Modell g MAPE ( x ) {\displaystyle g_{\text{MAPE}}(x)} {\displaystyle g_{\text{MAPE}}(x)} zu finden, so dass:

Y M A P E ( x ) = arg min g G E [ | g ( X ) Y Y | | X = x ] {\displaystyle Y_{\mathrm {MAPE} }(x)=\arg \min _{g\in {\mathcal {G}}}\mathbb {E} {\Biggl [}\left|{\frac {g(X)-Y}{Y}}\right||X=x{\Biggr ]}} {\displaystyle Y_{\mathrm {MAPE} }(x)=\arg \min _{g\in {\mathcal {G}}}\mathbb {E} {\Biggl [}\left|{\frac {g(X)-Y}{Y}}\right||X=x{\Biggr ]}}

wobei G {\displaystyle {\mathcal {G}}} {\displaystyle {\mathcal {G}}} die Klasse der in Betracht gezogenen Modelle ist.

In der Praxis kann Y MAPE ( x ) {\displaystyle Y_{\text{MAPE}}(x)} {\displaystyle Y_{\text{MAPE}}(x)} durch die Strategie der empirischen Risikominimierung geschätzt werden, was zu folgender Formel führt:

Y ^ MAPE ( x ) = arg min g G i = 1 n | g ( X i ) Y i Y i | {\displaystyle {\widehat {Y}}_{\text{MAPE}}(x)=\arg \min _{g\in {\mathcal {G}}}\sum _{i=1}^{n}\left|{\frac {g(X_{i})-Y_{i}}{Y_{i}}}\right|} {\displaystyle {\widehat {Y}}_{\text{MAPE}}(x)=\arg \min _{g\in {\mathcal {G}}}\sum _{i=1}^{n}\left|{\frac {g(X_{i})-Y_{i}}{Y_{i}}}\right|}

Es ist daher offensichtlich, dass die MAPE-Regression equivalent zu einer gewichteten Mean Absolute Error-Regression ist:

Y ^ MAPE ( x ) = arg min g G i = 1 n 1 | Y i | w i | g ( X i ) Y i | , {\displaystyle {\widehat {Y}}_{\text{MAPE}}(x)=\arg \min _{g\in {\mathcal {G}}}\sum _{i=1}^{n}\underbrace {\frac {1}{|Y_{i}|}} _{w_{i}}\left|g(X_{i})-Y_{i}\right|,} {\displaystyle {\widehat {Y}}_{\text{MAPE}}(x)=\arg \min _{g\in {\mathcal {G}}}\sum _{i=1}^{n}\underbrace {\frac {1}{|Y_{i}|}} _{w_{i}}\left|g(X_{i})-Y_{i}\right|,}

mit Gewichten w i {\displaystyle w_{i}} {\displaystyle w_{i}}

Tilted Empirical Risk Minimization

[Bearbeiten | Quelltext bearbeiten ]

Tilted Empirical Risk Minimization (TERM)[3] dient dazu eine Verlustfunktion wie die quadratische Abweichung durch die Einführung eines Tilting-Parameters anzupassen. Dieser Parameter passt die Gewichtung von Datenpunkten während des Trainings dynamisch an, wodurch der Algorithmus sich auf bestimmte Bereiche oder Eigenschaften der Datenverteilung konzentrieren kann. TERM ist besonders nützlich in Szenarien mit unausgeglichen Klassenhäufigkeiten (imbalanced data) oder wenn es erforderlich ist, Fehler in bestimmten Teilen des Vorhersageraums zu betonen.

Gewichtete empirische Risikominimierung

[Bearbeiten | Quelltext bearbeiten ]

Die nach Wichtigkeit gewichtete empirische Risikominimierung (Importance weighted Empirical Risk Minimization) beruht auf dem Prinzip des Importance Sampling und dient dazu, die Auswirkungen von Abweichungen zwischen der Verteilungen der Trainingsdaten und der realen Daten zu minimieren. Dies ist besonders relevant in Situationen, in denen eine verzerrte Stichprobenauswahl oder Verteilungsverschiebungen (distribution drifts) vorliegen[4] .

Verwandte Konzepte

[Bearbeiten | Quelltext bearbeiten ]

Empirische Risikominimierung kann mit kostensensitiver Optimierung in Verbindung gebracht werden[5] .

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten ]
  1. Ian Goodfellow, Yoshua Bengio, Aaron Courville: Deep Learning – Das umfassende Handbuch: Grundlagen, aktuelle Verfahren und Algorithmen, neue Forschungsansätze. MITP, Frechen 2018, ISBN 978-3-95845-702-7. 
  2. Beachte: während dieses Resultat auch für heteroskedastische Fehler gilt, ist der Schätzer, welcher durch Minimierung des mittleren quadratischen Fehlers erhalten wird, nicht mehr am effizientesten (obwohl er unverzerrt ist).
  3. Li, Tian et al. "Tilted empirical risk minimization." https://arxiv.org/abs/2007.01162
  4. What is the Effect of Importance Weighting in Deep Learning? Jonathon Byrd, Zachary C. Lipton https://arxiv.org/abs/1812.03372v3
  5. Maximum Likelihood in Cost-Sensitive Learning: Model Specification, Approximations, and Upper BoundsAuthors: Jacek P. Dmochowski, Paul Sajda, Lucas C. Parra, https://dl.acm.org/doi/10.5555/1756006.1953037
Abgerufen von „https://de.wikipedia.org/w/index.php?title=Empirische_Risikominimierung&oldid=250376995"