パラメータ に対する複数の推定量があるときに、どの推定 が”良い”のだろうか。 その基準として、ここでは、不偏性、一致性、有効性を説明する。 それぞれ一言で説明すると、 普遍性:推定量の期待値が、真の値に等しいこと 一致性:推定量が、標本数が大き…
友人に「強化学習って何なん?」と尋ねられたので、手法の本質を簡潔に説明できるか考えてみた。 強化学習は、めっちゃ簡単に言うと、 「制御理論の一種で、環境の情報(ハミルトニアンなど)を知らなくても、経験的にそれを獲得し、最適な制御方法を学習する…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。