2020-12-20から1日間の記事一覧

Soft-Actor-Critic (SAC) ①Soft-Q学習からSACへ

連続値制御のための有力手法である Soft Actor-Critic (SAC) の解説と、tensorflow2での実装例です。実装するだけならDDPGやその後継であるTD3とたいして変わりませんが、しっかり理解しようとするとなかなか苦労する手法です。注意 Soft-Q学習および最大エ…