ハムスターでもわかるTRPO ③tensorflow2での実装例

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します。その③。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②制約付き最適化問題…

2020-08-23

ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します（その②）。 [TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわか…

2020-08-21

ハムスターでもわかるTRPO ①基本編

TRPO 強化学習 tensorflow2 方策勾配法

強化学習初学者の鬼門であるTrust Region Policy Optimization (TRPO、信頼領域ポリシー最適化)を丁寧に解説し、tensorflow2で実装します。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②…

#TRPO #tensorflow2 #強化学習

2020-08-05

TRPOにおける共役勾配法とHessian-free

強化学習 TRPO Newton-CG Hessian-Free 共役勾配法 tensorflow2

[TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか - どこから見てもメンダコ ③ 【強化学習】ハムスターでもわかるTRPO ③tensorflow2…