連続値制御で大人気の強化学習手法であるSoft-Aactor-Criticのtensorflow2実装を解説します。 対象タスクはPendulum-v0とBipedalWalker-v3。 前記事: horomary.hatenablog.com ここまでの概要 Soft-Q関数について soft-Q関数の更新 ソフトターゲット更新 方…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。