強化学習(Reinforcement Learning)

  強化学習とは、試行錯誤を繰り返し数値化された報酬信号を最大に
  するために何をするべきかを学習していく教師なしの機械学習である。

  学習はエージェントと呼ばれる学習、意思決定を行うものと環境との
  相互作用によって進んでいく。


  強化学習は主に以下の3つの要素から構成される。

(1)方策 (policy)
 方策はある時点でのエージェントの振る舞い方を定義する。 方策は環境において知覚した状態から、 その状態にあるときに取るべき行動への写像である。 方策はそれだけでも行動を決定するには十分であるという意味において、 強化学習のエージェントの中核をなすものであり、この方策は一般的に確立的である。
(2)報酬関数 (reward function)
 報酬関数は強化学習において目標を定義する。この関数は環境において知覚した状態、つまり状態行動対を1個の数字である報酬に写像し、この報酬はその状態に備わった望ましさ表している。 強化学習のエージェントの唯一の目的は、最終的に受け取る総報酬を最大化することである。 この報酬関数はエージェントにとって何が良い出来事で、 何が悪い出来事であるかを定義している。
 例えば、当該方策に従った行動選択が低い報酬しかもたらさなければ、 将来その状況になった時には他の行動を選択する様に方策は変更される。
(3)価値関数 (value function)
 価値関数は報酬関数が即時的な意味合いで何が良いのかを 示しているのに対し、最終的に何が良いのかを指定する。 状態の価値とはエージェントがその状態を基点として将来にわたって蓄積する事を期待する報酬の総量である。 報酬はその環境が即時的で固有の望ましさを決定しているのに対し、 価値はその後に続きそうな状態群とそれらの状態群で得られそうな報酬を考慮に入れた上での 長期的な望ましさを示すものである。
 例えば、ある状態では常に低い報酬しか得られないかも知れないが、 高い報酬が得られる様な状態が規則的にそれに続くならば高い価値を持つ。



 強化学習の例として、学習法の一つである学習:方策オフ型TD制御について説明する。方策オフ型とは、方策オン型が方策を制御に用いる一方で、方策の価値を推定しているのに対しこれら2つの機能を分離しているものの事を指す。最も簡単な形式は1ステップ学習と呼ばれ、以下の様に定義される。

 この場合、学習で獲得される行動価値関数は使われている方策とは独立に最適行動価値関数を直接に近似する。方策は訪問し更新を行う行動状態対を決定するので学習に影響を及ぼすが、正しく収束を行うためには単に状態行動対がすべて更新され続ければ良いという事 だけが要求される。学習のアルゴリズムの手続きは次の様になる。

を任意に初期化
各エピソードに対し繰り返し:
  を初期化
  エピソードの各ステップに対して繰り返し:
    から導かれる方策(例えばに対するグリーディ方策)
      を使って、での行動を選択する
    行動を取り,を観測する
    
    
  が終端状態なら繰り返しを終了