SARSA・Q学習のうた――G検定で迷わないTD制御の要点

SARSA・Q学習のうたのアイキャッチ。オレンジ背景に「SARSA=on-policy」「Q学習=off-policy」と示し、中央に「TD制御」を配置した学習用イラスト。 AI
この記事は約3分で読めます。

はじめに

G検定で取り違えやすい強化学習の用語を、短いフレーズで耳から定着させる学習曲を作りました。
本記事では歌詞の原文を提示し、初学者にも誤解がないように最小限の補足で要点を整理します。

AIを活用した楽曲制作

歌詞は生成AI(ChatGPT)で制作し、音源はAI作曲ツール(Suno AI)で作成しました。
音楽スタイルは学習向けのアップテンポなポップとして要約します。

タイトル・歌詞の紹介

タイトル

SARSA・Q学習のうた

歌詞

TD制御はエピソード完了を待たずに価値を逐次更新
方策評価と改善を繰り返す
TD制御はモデルなし
TD制御は価値ベースの制御
SARSAはon-policy学習
SARSAは実際に選択した行動で更新
ε-greedyは探索と活用を両立する行動方策
Q学習はoff-policy学習
最適方策の価値を目標に更新
実際の行動方策と独立に学ぶ
SARSAは選択した行動で更新
on-policy学習は方策と学習が一致
Q学習は次状態の最大Q値で更新
on-policyはSARSA
off-policyはQ学習

楽曲の視聴

  • youtube

歌詞の解説

TD制御(途中で更新・モデルなし・価値ベース)

エピソード終了を待たずに、次状態の推定値で現在の価値を補正して更新します。
この「推定値で上書きしていく」手続きはブートストラップと呼ばれます。
TD制御は環境モデルを前提にせず、価値関数に基づいて制御します。
また、方策評価→方策改善を回す一般化方策反復(GPI)の流れで理解します。
必要に応じての代表式は次のとおりです。

\(V(S_t)\gets V(S_t)+\alpha{R_{t+1}+\gamma V(S_{t+1})-V(S_t)}\)

SARSA(on-policy:実際に選んだ次行動で更新)

行動方策で実際に選んだ次の行動の価値を使って更新します。
行動方策(ふるまい)と、更新の目標が一致しているためon-policyです。
必要に応じての代表式は次のとおりです。

\(Q(S_t,A_t)\gets Q(S_t,A_t)+\alpha{R_{t+1}+\gamma Q(S_{t+1},A_{t+1})-Q(S_t,A_t)}\)

ε-greedy(探索と活用を両立する行動方策の一例)

小さな確率\(\epsilon\)でランダム探索、\(1-\epsilon\)で現在最大の行動を選ぶ行動方策です。
SARSAでは、この方策で実際に選ばれた行動がそのまま更新に反映されます。

Q学習(off-policy:次状態の最大Qで更新)

行動は探索的でも、更新は次状態の最大Q値を目標に行います。
行動方策(behavior)と、更新の目標である貪欲方策(target)が不一致なのでoff-policyです。
必要に応じての代表式は次のとおりです。

\(Q(S_t,A_t)\gets Q(S_t,A_t)+\alpha{R_{t+1}+\gamma \max_a Q(S_{t+1},a)-Q(S_t,A_t)}\)

on/offの一言対比(暗記用)

on-policy = 行動と更新目標が一致(SARSA)
off-policy = 行動と更新目標が不一致(Q学習)

楽曲に込めたメッセージ

混同しやすいのは「行動方策」と「更新の目標」を取り違える点です。
歌詞はSARSA=実際の次行動Q学習=最大Qという対比を短文で反復し、試験で迷わない言い回しに揃えています。

まとめ

TD制御は「途中で更新・モデルなし・価値ベース」を軸に押さえます。
SARSAは「on-policy・実際に選んだ次行動で更新」です。
Q学習は「off-policy・次状態の最大Q値で更新・最適方策の価値を目標」です。
ε-greedyは「探索と活用を両立する行動方策」で、SARSAではその行動がそのまま更新に使われます。
最後に、on=SARSA/off=Q学習をもう一度確認しておきましょう。

コメント

タイトルとURLをコピーしました