強化学習とは、試行錯誤を繰り返し数値化された報酬信号を最大に
するために何をするべきかを学習していく教師なしの機械学習である。
学習はエージェントと呼ばれる学習、意思決定を行うものと環境との
相互作用によって進んでいく。
強化学習は主に以下の3つの要素から構成される。
強化学習の例として、学習法の一つである学習:方策オフ型TD制御について説明する。方策オフ型とは、方策オン型が方策を制御に用いる一方で、方策の価値を推定しているのに対しこれら2つの機能を分離しているものの事を指す。最も簡単な形式は1ステップ学習と呼ばれ、以下の様に定義される。
この場合、学習で獲得される行動価値関数は使われている方策とは独立に最適行動価値関数を直接に近似する。方策は訪問し更新を行う行動状態対を決定するので学習に影響を及ぼすが、正しく収束を行うためには単に状態行動対がすべて更新され続ければ良いという事 だけが要求される。学習のアルゴリズムの手続きは次の様になる。