2020-08-28から1日間の記事一覧

2020-08-28

ハムスターでもわかるTRPO ③tensorflow2での実装例

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します。その③。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②制約付き最適化問題…