強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します。その③。
[TRPOシリーズ一覧]
① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ
② ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか - どこから見てもメンダコ
TRPOの更新式
前回までの解説で、結局のところTRPOでは次式の通りに方策パラメータを更新すればよいことがわかりました。
については、現在(更新前)のパラメータ周辺でのL(θ)の勾配ですので実装でとくに難しいことはありません。
問題は更新前/更新後方策関数のKLダイバージェンスのヘシアンとその逆行列とgの積 の算出です。
この計算処理がTRPOの実装が複雑になる原因となっています。
ヘシアンの耐えられない重さ
上述の更新式を愚直に実装しようとするとヘシアン(ヘッセ行列)の逆行列を計算する必要がありますが、 ヘシアンの計算コストはパラメータ数の3乗オーダーで増加していきますので(参考:Hessian free)、深層学習ではとても実用的な計算速度にはなりません。
しかし、TRPO(に限らずヘシアンを利用する最適化手法)の更新式をよく見るとヘシアンそのものが計算に必要なのではなく、ヘシアンの逆行列とベクトルの積 および ヘシアンとベクトルの積( および )さえわかれば事足りることに気づきます。
※方策関数のパラメータ数がNのときヘシアン は N×N行列で勾配 はN×1ベクトルなので は N×1ベクトル 、したがって も N×1ベクトル であることに注意しましょう。
ヘシアンの逆行列とベクトルの積
ヘシアンの逆行列と勾配ベクトルの積を x と置きます。
これを変形すると
となり連立一次方程式 の形になります。そして連立一次方程式の解xは共役勾配法によってよい近似解を得ることができます。
このトリックによりヘシアン逆行列の愚直な計算を回避することができます。
Hessian-vector product の計算
資料4:Efficiently Computing the Fisher Vector Product in TRPO より
を近似するための共役勾配法アルゴリズム中ではヘシアンと任意のベクトルの積 を計算する必要があります。
※共役勾配法についての詳細は過去記事を参照ください。
horomary.hatenablog.com
ヘシアンを真面目に計算してしまうとヘシアンの逆行列ほどではないにせよやはり計算量が多すぎるのでここでも計算トリックを使って、Hを陽に計算せずにHvを計算します。 具体的には”KLダイバージェンスの勾配と任意のベクトルvの積 の総和” についての勾配 を計算することによって Hv が得られます。
これらのテクニックにより および を現実的な計算量で得ることができるようになります。
実装
openAI/baselinesの実装(tensorflow1.X) を参考に tensorflow2で実装しました。
baselines/trpo_mpi.py at master · openai/baselines · GitHub
実装全体はgithubへ: https://github.com/horoiwa/deep_reinforcement_learning_gallery
コード全体
1024ステップ分のトラジェクトリを取得済み、アドバンテージを計算済みの状態から方策関数を更新するコードのみ掲載します。
更新ステップの計算まで
fullstep = の計算までは数式通りに実装するだけです。
tensorflow2.X だと GradientTape
のおかげでどこで勾配が流れるのかわかりやすいため、tensorflow1.X での実装に比べてだいぶわかりやすくなっています。
ステップサイズの線形探索
fullstep = はあくまでテイラー展開による近似によって計算される値なので、このステップで更新した結果本当にL(θ)が改善するか、KL距離制約を満たしているかを確認します。
もしL(θ)が改善しない or KL距離制約を満たさないならばステップサイズを縮小します。既定の回数この処理を繰り返しても条件を満たさないならばこの回でのパラメータ更新は諦めてトラジェクトリを破棄します。
これがTRPOにおける Line search です。
Pendulum-v0 でのテスト結果
安定した学習ができていることがわかります。
TRPOは DDPG なんかの決定論的方策勾配と違って動きに人間味があっていいですね。