連続値制御のための有力手法である Soft Actor-Critic (SAC) の解説と、tensorflow2での実装例です。実装するだけならDDPGやその後継であるTD3とたいして変わりませんが、しっかり理解しようとするとなかなか苦労する手法です。 注意 Soft-Q学習および最大エ…
引用をストックしました
引用するにはまずログインしてください
引用をストックできませんでした。再度お試しください
限定公開記事のため引用できません。