2020-08-23から1日間の記事一覧

2020-08-23

ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します（その②）。 [TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわか…