どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

tensorflow2

ハムスターでもわかるProximal Policy Optimization (PPO)①基本編

シンプルなようで厄介な強化学習アルゴリズム PPO (Proximal Policy Optimization) を実装レベルの細かいテクニックまで含めて解説します。 ※TRPOの理解が前提です horomary.hatenablog.com [PPOシリーズ] ハムスターでもわかるProximal Policy Optimization…

ハムスターでもわかるTRPO ③tensorflow2での実装例

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します。その③。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②制約付き最適化問題…

ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか

強化学習初学者の鬼門であるTRPO(Trust region policy optimization)を丁寧に解説し、tensorflow2で実装します(その②)。 [TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわか…

ハムスターでもわかるTRPO ①基本編

強化学習初学者の鬼門であるTrust Region Policy Optimization (TRPO、信頼領域ポリシー最適化)を丁寧に解説し、tensorflow2で実装します。 [TRPOシリーズ一覧] ① ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② ハムスターでもわかるTRPO ②…

TRPOにおける共役勾配法とHessian-free

[TRPOシリーズ一覧] ① 【強化学習】ハムスターでもわかるTRPO ①基本編 - どこから見てもメンダコ ② 【強化学習】ハムスターでもわかるTRPO ②制約付き最適化問題をどう解くか - どこから見てもメンダコ ③ 【強化学習】ハムスターでもわかるTRPO ③tensorflow2…

TD3の解説・実装(強化学習)

Tensorflow2で連続値制御のための強化学習手法 TD3 (Twin Delayed DDPG)を実装し二足歩行を学習します。 画像元:https://starwars.disney.co.jp/character/at-at-walker.html はじめに:TD3とは 1. Clipped Double Q learning 2. Target Policy Smoothing 3…

DDPGでPendulum-v0(強化学習, tensorflow2)

はじめに DDPG (Deep Deterministic Policy Gradient) とは DDPGのネットワーク構造 Q関数 (Critic) の更新 学習を安定させるためのテクニック 1. Soft-Target 2. 探索ノイズ DDPGの問題点 実装 結果:Pendulum-v0 後継手法:TD3, SAC 備考: DDPGはoff-poli…

A2CでのBreakout攻略 (multiprocessing利用)

はじめに A2C (Advantage Actor Critic) は A3Cのバリアントであり、A3Cから非同期 (Asynchronous) 要素を除いた手法です。 A3Cはいろいろ盛り込んでて属性過多な手法だったので、手法の発表後にそれぞれの要素が性能にどの程度の寄与があったのかが検証され…

A3CでCartPole (強化学習)

深層強化学習において分散並列学習の有用性を示した重要な手法であるA3Cの解説と Tensorflow 2 での実装を行います。 [1602.01783] Asynchronous Methods for Deep Reinforcement Learning A3C: Asynchronous Actor Critic Asynchronous (非同期) とは A3C…

DQN(Deep Q Network)のtensorflow2実装

はじめに 準備:CartPole環境の作成 アルゴリズム概要 Q関数 Experiece Replayの実装 ベルマンエラーの計算 結果 関連: horomary.hatenablog.com CartPole-v1 with DQN pic.twitter.com/5OYfLzpV2S— めんだこ (@horromary) 2020年5月10日 はじめに [1312.56…