コンテンツにスキップ
Wikipedia

SARSA法

出典: フリー百科事典『ウィキペディア(Wikipedia)』
機械学習および
データマイニング

カテゴリ Category:機械学習

カテゴリ Category:データマイニング

SARSA法(State–Action–Reward–State–Action)はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート[1] の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。リチャード・サットンにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。

このネーミングは、行動価値関数Qの更新アルゴリズムが、現在の状況 S 1 {\displaystyle S_{1}} {\displaystyle S_{1}}、現在の行動 A 1 {\displaystyle A_{1}} {\displaystyle A_{1}}、行動による報酬 R 2 {\displaystyle R_{2}} {\displaystyle R_{2}}、次の状態 S 2 {\displaystyle S_{2}} {\displaystyle S_{2}}、その状態で選ぶ行動 A 2 {\displaystyle A_{2}} {\displaystyle A_{2}}の5つ組で決まることに由来する。一般化すると、 ( S t , A t , R t + 1 , S t + 1 , A t + 1 ) {\displaystyle (S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1})} {\displaystyle (S_{t},A_{t},R_{t+1},S_{t+1},A_{t+1})}である[2] 。なお、 R t + 1 {\displaystyle R_{t+1}} {\displaystyle R_{t+1}}は報酬の定義によっては、 R t {\displaystyle R_{t}} {\displaystyle R_{t}}とも書かれるが、リチャード・サットンの『強化学習(第2版)』の表記法に合わせた[3]

アルゴリズム

[編集 ]

状態 S t {\displaystyle S_{t}} {\displaystyle S_{t}} のエージェントが行動 A t {\displaystyle A_{t}} {\displaystyle A_{t}} を選び、報酬 R t + 1 {\displaystyle R_{t+1}} {\displaystyle R_{t+1}} を得て、状態が S t + 1 {\displaystyle S_{t+1}} {\displaystyle S_{t+1}} に遷移し、その次の行動が A t + 1 {\displaystyle A_{t+1}} {\displaystyle A_{t+1}} だとする。このとき行動価値関数 Q ( S t , A t ) {\displaystyle Q(S_{t},A_{t})} {\displaystyle Q(S_{t},A_{t})} を次の式で更新する。 Q ( S t , A t ) {\displaystyle Q(S_{t},A_{t})} {\displaystyle Q(S_{t},A_{t})} R t + 1 + γ Q ( S t + 1 , A t + 1 ) {\displaystyle R_{t+1}+\gamma ,円Q(S_{t+1},A_{t+1})} {\displaystyle R_{t+1}+\gamma ,円Q(S_{t+1},A_{t+1})} に近づくように学習される。

Q ( S t , A t ) ( 1 α ) Q ( S t , A t ) + α [ R t + 1 + γ Q ( S t + 1 , A t + 1 ) ] {\displaystyle Q(S_{t},A_{t})\leftarrow (1-\alpha )Q(S_{t},A_{t})+\alpha \left[R_{t+1}+\gamma ,円Q(S_{t+1},A_{t+1})\right]} {\displaystyle Q(S_{t},A_{t})\leftarrow (1-\alpha )Q(S_{t},A_{t})+\alpha \left[R_{t+1}+\gamma ,円Q(S_{t+1},A_{t+1})\right]}

SARSAでは、エージェントは環境と相互作用し、行われた行動ベースでポリシーを更新する。そのため、オンポリシー型の学習アルゴリズムである。

学習率 0 < α < 1 {\displaystyle 0<\alpha <1} {\displaystyle 0<\alpha <1} は、古い情報を、新しく獲得した情報によってどの程度上書きするかを決定する。0にすれば、エージェントは何も学ばないし、1にすれば、最近の情報だけを近視眼的に考慮するようになる。

割引率 0 < γ < 1 {\displaystyle 0<\gamma <1} {\displaystyle 0<\gamma <1} は、将来の報酬の重要度を決定する。0にすれば、エージェントは日和見主義的、近視眼的[4] になる。要するに、現在の報酬だけを考慮するようになる。1に近づければ、長期的視野で高い報酬を求めるようになる。1にしたり、1を超えたりすると、Q値は発散してしまう可能性がある。

関連項目

[編集 ]

出典

[編集 ]

AltStyle によって変換されたページ (->オリジナル) /