強化学習　考え方 - ChunPom’s diary

強化学習の考えを数式なしでまとめる。

目的

「複数ステップの行動からなるタスクにおいて、1エピソード(試合)で獲得される報酬の和を、最大化するような最適行動を求める」

設定と定義

強化学習で必要となってくる各種設定の定義を列挙する。

①エージェント：タスクを解く主体で、行動を実行し、報酬を環境から獲得する

②状態：エージェントの制御対象の状態。行動により、状態は変遷する。

③行動：タスクの一連の操作の入力値。

④環境：タスクの舞台。エージェントは、環境の詳細を知らない。

⑤報酬：行動の結果、環境から獲得される評価値のこと。

⑥エピソード：タスクの一連の操作を示す。

⑦方策：エージェントが行動を決定する際の指針。

⑧価値関数：現在の状態や行動の価値を示す関数。

例えば、将棋を考える。エージェントは将棋の指し手であり、環境は将棋というゲームそのもの。状態は盤面に相当し、行動は各場面での手である。1エピソードは試合終了までの棋譜である。報酬の例としては、その手で獲得した駒の評価値(歩は1点、角は10点)や、勝利した際の得点(負けたら-100点、勝ったら100点)などである。

指し手の思考が方策であり、現在の盤面の状態に対して、どの行動を取るべきかを考える。判断が難しい時に、「エイヤッ」と適当な手を打つことも方策の一つである。価値関数は、方策を与える上で必要な、価値のカタログである。すなわち、手や盤面に対する価値を出力する関数である。この価値は、即時的なものではなく、将来もらえるだろう報酬を加味したものである。例えば、即時的に考えると飛車を取ることが駒得だが、場合によっては銀を取ったほうが後々の詰めろにつながる、といったこともありうる。

基本フロー

強化学習には主に2種類の手法がある。それは、価値関数を学習する手法(Q学習、Sarsaなど)と、方策を直接学習する方法(方策勾配法)である。ただし、基本的なフローは以下の通りで同じである。

行動実行

↓

状態変化

↓

報酬獲得

↓

(価値関数更新)

↓

方策更新

↓

最初に戻って繰り返し

この操作を繰り返すことにより、得られた報酬の値を用いて、方策を反復的に更新することができる。すなわち、どんどんエージェントの思考が洗練されて行くことになる。

(1) 価値関数を学習する手法

方策を更新するといっても、どのように更新すれば良いのだろうか？そもそも方策とは、「価値の高い行動を選択する」ということではないだろうか。従って、行動の価値を報酬から推定することができれば、方策を決めることができるだろう。幸運なことに、価値関数は、再帰的にベルマン方程式というものを満足する。つまり、報酬の値を用いてベルマン方程式を更新してゆけば、いつか真の価値関数に収束する。

つまり、価値関数を学習する強化学習の思想は、

最適な行動知りたい→最適な方策求めたい→行動の価値が分かればいいじゃん！！

→ベルマン方程式あるからこれで推定しようぜ　という感じ。

(2) 方策を直接学習する手法(方策勾配法)

(1)では一旦価値関数を求めてから方策を求める、間接的な手法であった。では、直接方策を求める方法はないだろうか？

方策に対する教師データなど存在しないし、方策自体はベルマン方程式に従うわけではない。

そこで、まず方策をモデル化し、そのモデルと報酬を用いて価値関数などの目的関数を表す。この目的関数が最大となるように、微分値を用いてモデルのパラメータの更新を行う。目的関数の微分値には、方策のモデルの微分が現れるため、方策勾配法よ呼ばれている。

つまり、方策を直接学習する強化学習の思想は、

最適な行動知りたい→最適な方策求めたい→目的関数が最大になるよう方策を更新しよう

という感じ。

数式を交えた説明も、今後行う予定である。

以下、参考のため、強化学習関連の本をまとめておく。

強化学習

作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
出版社/メーカー: 森北出版
発売日: 2000/12/01
メディア: 単行本（ソフトカバー）
購入: 5人クリック: 76回
この商品を含むブログ (29件) を見る

これからの強化学習

作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等,伊藤真,大倉和博,黒江康明,杉本徳和,坪井祐太,銅谷賢治,前田新一,松井藤五郎,南泰浩,宮崎和光,目黒豊美,森村哲郎,森本淳,保田俊行,吉本潤一郎
出版社/メーカー: 森北出版
発売日: 2016/10/27
メディア: 単行本（ソフトカバー）
この商品を含むブログ (3件) を見る