ハムスターでもわかるProximal Policy Optimization （PPO）①基本編

強化学習 tensorflow2 PPO

シンプルなようで厄介な強化学習アルゴリズム PPO (Proximal Policy Optimization) を実装レベルの細かいテクニックまで含めて解説します。 ※TRPOの理解が前提です horomary.hatenablog.com [PPOシリーズ] ハムスターでもわかるProximal Policy Optimization…

2020-08-28

ハムスターでもわかるTRPO ③tensorflow2での実装例

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します。その③。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②制約付き最適化問題…

2020-08-23

ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか

TRPO 強化学習 tensorflow2

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します（その②）。 [TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわか…

2020-08-21

ハムスターでもわかるTRPO ①基本編

TRPO 強化学習 tensorflow2 方策勾配法

強化学習初学者の鬼門であるTrust Region Policy Optimization (TRPO、信頼領域ポリシー最適化)を丁寧に解説し、tensorflow2で実装します。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②…

#TRPO #tensorflow2 #強化学習

2020-08-05

TRPOにおける共役勾配法とHessian-free

強化学習 TRPO Newton-CG Hessian-Free 共役勾配法 tensorflow2

[TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか - どこから見てもメンダコ ③ 【強化学習】ハムスターでもわかるTRPO ③tensorflow2…

2020-07-01

TD3の解説・実装（強化学習）

強化学習 tensorflow2 BipedalWalker-v3

Tensorflow2で連続値制御のための強化学習手法 TD3 (Twin Delayed DDPG)を実装し二足歩行を学習します。画像元：https://starwars.disney.co.jp/character/at-at-walker.html はじめに：TD3とは 1. Clipped Double Q learning 2. Target Policy Smoothing 3…

2020-06-26

DDPGでPendulum-v0（強化学習, tensorflow2）

強化学習 tensorflow2 DDPG

はじめに DDPG (Deep Deterministic Policy Gradient) とは DDPGのネットワーク構造 Q関数 (Critic) の更新学習を安定させるためのテクニック 1. Soft-Target 2. 探索ノイズ DDPGの問題点実装結果：Pendulum-v0 後継手法：TD3, SAC 備考： DDPGはoff-poli…

#DDPG #tensorflow2 #強化学習

2020-05-30

A2CでのBreakout攻略 (multiprocessing利用)

強化学習 A2C tensorflow2 A3C

はじめに A2C (Advantage Actor Critic) は A3Cのバリアントであり、A3Cから非同期 (Asynchronous) 要素を除いた手法です。 A3Cはいろいろ盛り込んでて属性過多な手法だったので、手法の発表後にそれぞれの要素が性能にどの程度の寄与があったのかが検証され…

2020-05-24

A3CでCartPole (強化学習)

強化学習 tensorflow2 A3C

深層強化学習において分散並列学習の有用性を示した重要な手法であるA3Cの解説と Tensorflow 2 での実装を行います。 [1602.01783] Asynchronous Methods for Deep Reinforcement Learning A3C: Asynchronous Actor Critic Asynchronous （非同期）とは A3C…

2020-05-10

DQN(Deep Q Network)のtensorflow2実装

tensorflow2 強化学習

はじめに準備：CartPole環境の作成アルゴリズム概要 Q関数 Experiece Replayの実装ベルマンエラーの計算結果関連： horomary.hatenablog.com CartPole-v1 with DQN pic.twitter.com/5OYfLzpV2S— めんだこ (@horromary) 2020年5月10日はじめに [1312.56…