TD3の解説・実装（強化学習） - どこから見てもメンダコ

Tensorflow2で連続値制御のための強化学習手法 TD3 (Twin Delayed DDPG)を実装し二足歩行を学習します。

f:id:horomary:20200629221713p:plain — 画像元：https://starwars.disney.co.jp/character/at-at-walker.html

はじめに：TD3とは
実装
- ネットワーク構造
- 更新処理
BipedalWalker-v3での学習結果

前提手法：DDPG, DQN

horomary.hatenablog.com

はじめに：TD3とは

[1802.09477] Addressing Function Approximation Error in Actor-Critic Methods

Twin Delayed DDPG — Spinning Up documentation

TD3 （Twin Delayed DDPG）はActor-Critic系強化学習手法であるDDPGの改良手法です。

基本的な流れはDDPGとほぼ同じですが、Double DQN論文が指摘したDQNでのQ関数の過大評価がActor-Criticでも生じることを示し、学習安定化のために下記の３つのテクニックを提案しました。

1. Clipped Double Q learning
2. Target Policy Smoothing
3. Delayed Policy Update

1. Clipped Double Q learning

オリジナルのDQNでは、TD誤差の計算における $\displaystyle{ \max_{a'} Q_{target}(s', a') }$ 項で、行動選択を行うネットワークとQ値の評価を行うネットワークが同一であるため、Q(s, a)の過大見積りが発生する傾向があることがDouble Q learning論文で指摘されていました。

horomary.hatenablog.com

Double DQNでは、行動選択をq-networkに、Q値の推定をtarget-q-networkに行わせることにより過大評価の低減を狙いました。一方、TD３ではQ関数を同時に２つ訓練し常にQ値が小さい方を採用することにより過大評価の低減を狙います。

$DDPG: \displaystyle{ L_{critic} = {\frac{1}{N} \sum (r_t + \gamma Q_{target}(s_{t+1}, \mu_{target}(s_{t+1})) - Q(s_{t}, a_t)) }^2 }$

$TD3: \displaystyle{ L_{critic} = {\frac{1}{N} \sum (r_t + \gamma \min_{i=1,2}({Q_{i, target}(s_{t+1}, \mu_{target}(s_{t+1}))}) - Q(s_{t}, a_t)) }^2 }$

コードにするとこんな感じ。簡単ですね。

2. Target Policy Smoothing

$TD3 : \displaystyle{ L_{critic} = { \sum (r_t + \gamma \min_{i=1,2}({Q_{i, target}(s_{t+1}, \mu_{target}(s_{t+1})+\mathcal{N}(0, \sigma))}) - Q(s_{t}, a_t)) }^2 }$