LLMチューニングのための強化学習②：GSPO（Group Sequence Policy Optimization）

Qwen3の推論強化チューニング手法であるGSPO（Group Sequence Policy Optimization）について考えたことをまとめます。 GSPO：学習安定性が向上したGRPO シーケンスレベル重点サンプリングによる分布補正ノイズの低減前提：重点サンプリングとは？サンプ…

#強化学習 #LLM

2025-08-17

Jax/Flax NNXで実装する深層強化学習②：PPOによるロボット犬の歩行学習

MuJoCo-XLA (MJX)環境にてロボット犬（UnitreeGo1）の歩行学習のためにPPOをFlax NNXで実装します。 Jax/Flax NNXとは Massively Parallel Reinforcement Learning （大規模並列強化学習）大規模並列強化学習のためのプラットフォーム MuJoCo XLA（MJX）： …

#強化学習 #Unitree #Mujoco

2025-07-07

Jax/Flax NNXで実装する深層強化学習①：DQNによるAtari/Breakout攻略

Pytorchスタイルになって書きやすくなったFlaxの新API「NNX」の使用感の確認のため、ALE/Breakout（ブロック崩し）向けにDQNを実装しました。 Jaxとは？ ①Numpyの使いやすさ ②柔軟な自動微分 ③マルチCPU/GPU/TPUでの分散並列コンピューティング Flax NNXとは…

#強化学習 #jax #flax

2025-05-25

サンプル効率強化学習②：EfficientZeroV2

サンプル効率に優れたMuZeroの後継手法EfficientZeroV2を実装。強化学習実用のカギはサンプル効率世界モデルベース強化学習とは前提手法 MuZero：潜在変数空間上での木探索 EfficientZeroV2：MuZero派生の全部盛り EfficientZeroV2の実装 ① Gumbel-MCTS …

2025-03-09

論文メモ：AI co-scientistによる科学的発見の加速

マルチエージェントシステムによる研究仮説提案（AI共同科学者）論文を読んだメモ。 Towards an AI co-scientist research.google ※本記事のすべての画像は以上のリンクが出典 GoogleのAI co-scientist（AI共同研究者）研究仮説提案のためのマルチエージェ…

#AIエージェント

2025-01-26

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization）

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法前提手法：TRPO/PPO TRPO: Trust Region Policy Optimi…

#強化学習

2024-11-03

サンプル効率強化学習①：Bigger, Better, Fasterの実装

たった２時間のゲームプレイで人間相当性能に到達可能なサンプル効率の高い強化学習手法 ”Bigger, Better, Faster”を実装します。背景：強化学習実用の課題は劣悪なサンプル効率強化学習におけるサンプル効率向上アプローチ評価指標： Atari-100Kベンチ…

#強化学習

2024-06-30

AlphaFoldの進化史：初代からAlphaFold3まで

AlphaFold3が発表されたのでこれまでの技術的変遷を復習します。初代AlphaFold (2019) インパクト：深層学習によるゲームチェンジ手法概要 ① 残基間距離行列の予測ステップ ② 二面角(ΦΨ)の数理最適化ステップ Note：距離行列予測は苦しい AlphaFold2 (20…

#拡散モデル #ケモインフォマティクス #AlphaFold

2024-02-19

拡散モデルによる分子デザイン①：同変グラフ拡散モデルの実装

同変グラフ畳み込み拡散モデル（EDM: E(3) Equivariant Diffusion Model）による分子生成をtf2で実装します。同変グラフ拡散モデルによる分子生成拡散モデルによる分子デザイン拡散モデルの優位性 ① 学習安定性が高く、大きく複雑な構造生成が可能 ② 高精…

#拡散モデル #ケモインフォマティクス #グラフニューラルネットワーク

2023-11-24

LLM時代の強化学習

強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる…

#強化学習

2023-07-11

オフライン強化学習④：拡散モデルの台頭

オフライン強化学習における拡散方策の近年の適用例を概観し、tensorflowで実装します。背景拡散方策（Diffusion Policy）の登場模倣学習の大幅な性能向上 Diffusion-QLの衝撃主要な手法・論文 Diffusion-QL：拡散方策のミニマリストアプローチ IDQL： I…

#強化学習 #拡散モデル

2023-05-02

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

Implicit Q-Learningでは、maxQ(s,a)の評価を期待回帰(Expectile Regression)によって暗黙的に行うことでオフライン強化学習の困難の一つであるサンプル外アクション問題を回避します openreview.net オフライン強化学習の困難オフライン強化学習とはサン…

#強化学習

2023-03-21

プロンプト戦略による大規模言語モデルのドメイン適応：Med-PaLMの例

プロンプト戦略のみで大規模言語モデルの医療ドメイン適応に成功したMed-PaLMのアプローチをまとめます。ナレッジベースとしての大規模言語モデル Med-PaLM：プロンプト戦略によるドメイン適応プロンプト戦略：Instruction Prompt Tuning ハードプロンプト…

2022-12-28

安全で信頼できる対話AIのためのアプローチ：InstructGPT, Sparrow, Galactica

OpenAIのInstructGPT, DeepMindのSparrow, MetaのGalacticaにおける対話AIの信頼性/安全性向上のためのアプローチをまとめます Words have the power to both destroy and heal. When words are both true and kind, they can change our world. 言葉は人を…

#自然言語処理 #強化学習

2022-11-28

オフライン強化学習② Decision Transformerの系譜

Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテ…

#強化学習

2022-10-30

オフライン強化学習① Conservative Q-Learning (CQL)の実装

オフライン強化学習の有名手法CQLについて、簡単な解説とともにブロック崩し環境向けのtf2実装を紹介します [2006.04779] Conservative Q-Learning for Offline Reinforcement Learning sites.google.com はじめに：オフライン強化学習とは問題設定：ゲーム…

#強化学習

2022-09-06

論文メモ：深層強化学習によるトカマク型核融合炉の制御

DeepMindの深層強化学習による核融合炉制御論文を読んだので論文内容と論文を理解するために調べた技術背景をまとめます。 Accelerating fusion science through learned plasma control www.nature.com 要約技術背景：核融合炉の仕組み核分裂エネルギーと…

#強化学習

2022-07-21

強化学習 as Inference： Maximum a Posteriori Policy Optimizationの実装

方策が最適である確率の下界をＥＭアルゴリズムっぽく最大化する強化学習手法 Maximum a Posteriori policy Optimization (ICLR2018) をBipedalWalker-v3向けにtensorflow2で実装します。 openreview.net はじめに方策勾配法：劣悪なサンプル効率と不安定…

#強化学習 #EMアルゴリズム #変分推論

2022-02-27

世界モデルベース強化学習①： DreamerV2の実装

世界モデル系強化学習の先端手法であるDreamerV2をブロック崩し（BreakoutDeterministic-v4）向けに実装しました。はじめに世界モデルベース強化学習とは DreamerV2：Atari環境で初めてモデルフリー手法に並んだ世界モデルベース強化学習世界モデル（Worl…

#強化学習 #tensorflow2

2021-10-01

スッキリわかるAlphaFold2

注意： Alphafold2の手法解説です。使い方の説明ではありません構造生物学ドメインにはある程度の説明をつけますアーキテクチャ設計の意図については個人の考察であり、正しさに何ら保証がありません AttentionとTransformerそのものについての説明は行い…

#Alphafold2

2021-08-31

GKE＋Rayで実装するマルチノード分散並列強化学習

Google Kubernetes Engine (GKE) とpythonの分散処並列理ライブラリRayで安価に大規模分散並列強化学習（Ape-Xアーキテクチャ）の実行環境をつくるチュートリアルです。GKEのプリエンプティブルインスタンスを活用することで、総リソース 128 vCPU, NVIDIA T…

#GKE #Ray #分散学習 #強化学習

2021-08-04

MuZeroの実装解説（for Breakout）

MuZero = 状態遷移モデル＋AlphaZero を簡単に解説しつつ、atari環境のBreakout（ブロック崩し）向けにtensorflow2での実装例を紹介します MuZeroとはアルゴリズムの概要モンテカルロ木探索 MuZero版モンテカルロ木探索 VAE系世界モデルとの比較 MuZero Re…

#MuZero #AlphaZero #tensorflow2 #強化学習

2021-06-21

スッキリわかるAlphaZero

The game of Go has long been viewed as the most challenging of classic games for artificial intelligence 囲碁はAIにとってもっとも困難なボードゲームの一つと考えられてきました (Mastering the game of Go with deep neural networks and tree sear…

#強化学習 #tensorflow2 #AlphaZero

2021-05-15

rayで実装する分散強化学習 ④R2D2

Ape-XにRNNを導入することでatari環境において圧倒的SotAを叩き出した分散強化学習手法 R2D2（Recurrent Experience Replay in Distributed Reinforcement Learning）をtensorflow＋pythonの分散並列処理ライブラリrayで実装します Recurrent Experience Rep…

#強化学習 #tensorflow2 #R2D2

2021-04-23

深層分布強化学習 ③FQF: Fully Parameterized Quantile Function for Distributional RL

単体でRainbow越えを達成した深層分布強化学習手法FQFをtensorflow2で実装します。はじめに C51 → QR-DQN → IQN FQFとは：いい感じのτを提案する機構付きのIQN FQFネットワークの実装 FQFアーキテクチャ Feature network：特徴抽出ネットワーク Fraction pr…

#強化学習 #DQN #tensorflow2

2021-04-03

深層分布強化学習 ②QR-DQN

QR-DQNをtensorflow2で実装します。元論文： [1710.10044] Distributional Reinforcement Learning with Quantile Regression はじめに Categorical DQNの分布モデル QR-DQNの分布モデル分位点回帰分位点Huberloss QR-DQNの実装 QRネットワークの実装分…

#強化学習 #tensorflow2

2021-03-02

rayで実装する分散強化学習 ③Ape-X DQN

深層強化学習における超大規模分散並列化の有用性を示したApeX-DQN（Distributed Prioritized Experience Replay）をtensorflow2とrayで実装します。手法の構成要素自体はRainbowとだいたい同じであるため、本記事の焦点は分散並列学習の実装です。はじめに…

#強化学習 #tensorflow2 #ray

2021-02-16

Segment Tree（セグメント木）による重み付きランダムサンプリング

競技プログラミング界隈では一般教養であるらしいセグメント木のSum-tree構造で高速な重み付きサンプリングを実装します。はじめに A. numpy.choiceによる重み付きランダムサンプリング B. 累積和による重み付きランダムサンプリング C. Sum-tree構造を活用…

#python #segmenttree #sumtree #データ構造

2021-02-11

DQNの進化史 ④Rainbowの実装

Deep-Q-Network (2013) 以降の深層強化学習（Q学習）の発展を、簡単な解説とtensorflow2での実装例と共に紹介していきます。今回はDQNの改良トリックを全部盛りにしたら強いんでは？という脳筋発想によって生まれた手法であるRainbowを実装します。 DQNシリ…

#強化学習 #tensorflow2 #rainbow

2021-02-09

DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51

Deep-Q-Network以降の深層強化学習（というか深層Q学習）の発展を、簡単な解説とtensorflow2での実装例と共に紹介していきます。今回は経験再生の改良である優先度付き経験再生（Prioritized experience replay）、方策勾配法ではよく使われるMulti-step lea…

どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

LLMチューニングのための強化学習②：GSPO（Group Sequence Policy Optimization）

Jax/Flax NNXで実装する深層強化学習②：PPOによるロボット犬の歩行学習

Jax/Flax NNXで実装する深層強化学習①：DQNによるAtari/Breakout攻略

サンプル効率強化学習②：EfficientZeroV2

論文メモ：AI co-scientistによる科学的発見の加速

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization）

サンプル効率強化学習①：Bigger, Better, Fasterの実装

AlphaFoldの進化史：初代からAlphaFold3まで

拡散モデルによる分子デザイン①：同変グラフ拡散モデルの実装

LLM時代の強化学習

オフライン強化学習④：拡散モデルの台頭

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

プロンプト戦略による大規模言語モデルのドメイン適応：Med-PaLMの例

安全で信頼できる対話AIのためのアプローチ：InstructGPT, Sparrow, Galactica

オフライン強化学習② Decision Transformerの系譜

オフライン強化学習① Conservative Q-Learning (CQL)の実装

論文メモ：深層強化学習によるトカマク型核融合炉の制御

強化学習 as Inference： Maximum a Posteriori Policy Optimizationの実装

世界モデルベース強化学習①： DreamerV2の実装

スッキリわかるAlphaFold2

GKE＋Rayで実装するマルチノード分散並列強化学習

MuZeroの実装解説（for Breakout）

スッキリわかるAlphaZero

rayで実装する分散強化学習 ④R2D2

深層分布強化学習 ③FQF: Fully Parameterized Quantile Function for Distributional RL

深層分布強化学習 ②QR-DQN

rayで実装する分散強化学習 ③Ape-X DQN

Segment Tree（セグメント木）による重み付きランダムサンプリング

DQNの進化史 ④Rainbowの実装

DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51