ChunPom’s diary

数学、物理、機械学習に関する話題。あと院試、資格、大学入試まで。

強化学習 考え方

 

強化学習の考えを数式なしでまとめる。

 

目的 

 「複数ステップの行動からなるタスクにおいて、1エピソード(試合)で獲得される報酬の和を、最大化するような最適行動を求める」

 

設定と定義

強化学習で必要となってくる各種設定の定義を列挙する。

エージェント:タスクを解く主体で、行動を実行し、報酬を環境から獲得する

状態:エージェントの制御対象の状態。行動により、状態は変遷する。

行動:タスクの一連の操作の入力値。

環境:タスクの舞台。エージェントは、環境の詳細を知らない。

報酬:行動の結果、環境から獲得される評価値のこと。

エピソード:タスクの一連の操作を示す。

方策:エージェントが行動を決定する際の指針。

価値関数:現在の状態や行動の価値を示す関数。

例えば、 将棋を考える。エージェントは将棋の指し手であり、環境は将棋というゲームそのもの。状態は盤面に相当し、行動は各場面での手である。1エピソードは試合終了までの棋譜である。報酬の例としては、その手で獲得した駒の評価値(歩は1点、角は10点)や、勝利した際の得点(負けたら-100点、勝ったら100点)などである。

指し手の思考が方策であり、現在の盤面の状態に対して、どの行動を取るべきかを考える。判断が難しい時に、「エイヤッ」と適当な手を打つことも方策の一つである。価値関数は、方策を与える上で必要な、価値のカタログである。すなわち、手や盤面に対する価値を出力する関数である。この価値は、即時的なものではなく、将来もらえるだろう報酬を加味したものである。例えば、即時的に考えると飛車を取ることが駒得だが、場合によっては銀を取ったほうが後々の詰めろにつながる、といったこともありうる。

 

基本フロー

強化学習には主に2種類の手法がある。それは、価値関数を学習する手法(Q学習、Sarsaなど)と、方策を直接学習する方法(方策勾配法)である。ただし、基本的なフローは以下の通りで同じである。

 

行動実行

状態変化

報酬獲得

(価値関数更新)

方策更新

最初に戻って繰り返し

 

この操作を繰り返すことにより、得られた報酬の値を用いて、方策を反復的に更新することができる。すなわち、どんどんエージェントの思考が洗練されて行くことになる。

 

(1) 価値関数を学習する手法

方策を更新するといっても、どのように更新すれば良いのだろうか?そもそも方策とは、「価値の高い行動を選択する」ということではないだろうか。従って、行動の価値を報酬から推定することができれば、方策を決めることができるだろう。幸運なことに、価値関数は、再帰的にベルマン方程式というものを満足する。つまり、報酬の値を用いてベルマン方程式を更新してゆけば、いつか真の価値関数に収束する。

つまり、価値関数を学習する強化学習の思想は、

最適な行動知りたい→最適な方策求めたい→行動の価値が分かればいいじゃん!!

→ベルマン方程式あるからこれで推定しようぜ という感じ。

 

(2) 方策を直接学習する手法(方策勾配法)

(1)では一旦価値関数を求めてから方策を求める、間接的な手法であった。では、直接方策を求める方法はないだろうか?

方策に対する教師データなど存在しないし、方策自体はベルマン方程式に従うわけではない。

そこで、まず方策をモデル化し、そのモデルと報酬を用いて価値関数などの目的関数を表す。この目的関数が最大となるように、微分値を用いてモデルのパラメータの更新を行う。目的関数の微分値には、方策のモデルの微分が現れるため、方策勾配法よ呼ばれている。

つまり、方策を直接学習する強化学習の思想は、

最適な行動知りたい→最適な方策求めたい→目的関数が最大になるよう方策を更新しよう

という感じ。

 

数式を交えた説明も、今後行う予定である。

以下、参考のため、強化学習関連の本をまとめておく。

強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る
 
これからの強化学習

これからの強化学習

  • 作者: 牧野貴樹,澁谷長史,白川真一,浅田稔,麻生英樹,荒井幸代,飯間等,伊藤真,大倉和博,黒江康明,杉本徳和,坪井祐太,銅谷賢治,前田新一,松井藤五郎,南泰浩,宮崎和光,目黒豊美,森村哲郎,森本淳,保田俊行,吉本潤一郎
  • 出版社/メーカー: 森北出版
  • 発売日: 2016/10/27
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (3件) を見る
 
速習 強化学習 ―基礎理論とアルゴリズム―

速習 強化学習 ―基礎理論とアルゴリズム―

  • 作者: Csaba Szepesvari,小山田創哲,前田新一,小山雅典,池田春之介,大渡勝己,芝慎太朗,関根嵩之,高山晃一,田中一樹,西村直樹,藤田康博,望月駿一
  • 出版社/メーカー: 共立出版
  • 発売日: 2017/09/21
  • メディア: 単行本
  • この商品を含むブログを見る
 
強化学習と深層学習 C言語によるシミュレーション

強化学習と深層学習 C言語によるシミュレーション

 
ロボットインテリジェンス―進化計算と強化学習 (図解ロボット技術入門シリーズ)

ロボットインテリジェンス―進化計算と強化学習 (図解ロボット技術入門シリーズ)

 
バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)

バンディット問題の理論とアルゴリズム (機械学習プロフェッショナルシリーズ)

 
Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning series)

Reinforcement Learning: An Introduction (Adaptive Computation and Machine Learning series)

  • 作者: Richard S. Sutton,Andrew G. Barto
  • 出版社/メーカー: A Bradford Book
  • 発売日: 1998/02/26
  • メディア: ハードカバー
  • クリック: 4回
  • この商品を含むブログを見る