どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

LLMチューニングのための強化学習②:GSPO(Group Sequence Policy Optimization)

Qwen3の推論強化チューニング手法であるGSPO(Group Sequence Policy Optimization)について考えたことをまとめます。 GSPO: 学習安定性が向上したGRPO シーケンスレベル重点サンプリングによる分布補正ノイズの低減 前提:重点サンプリングとは? サンプ…

Jax/Flax NNXで実装する深層強化学習②:PPOによるロボット犬の歩行学習

MuJoCo-XLA (MJX)環境にてロボット犬(UnitreeGo1)の歩行学習のためにPPOをFlax NNXで実装します。 Jax/Flax NNXとは Massively Parallel Reinforcement Learning (大規模並列強化学習) 大規模並列強化学習のためのプラットフォーム MuJoCo XLA(MJX): …

Jax/Flax NNXで実装する深層強化学習①:DQNによるAtari/Breakout攻略

Pytorchスタイルになって書きやすくなったFlaxの新API「NNX」の使用感の確認のため、ALE/Breakout(ブロック崩し)向けにDQNを実装しました。 Jaxとは? ①Numpyの使いやすさ ②柔軟な自動微分 ③マルチCPU/GPU/TPUでの分散並列コンピューティング Flax NNXとは…

サンプル効率強化学習②:EfficientZeroV2

サンプル効率に優れたMuZeroの後継手法EfficientZeroV2を実装。 強化学習実用のカギはサンプル効率 世界モデルベース強化学習とは 前提手法 MuZero: 潜在変数空間上での木探索 EfficientZeroV2:MuZero派生の全部盛り EfficientZeroV2の実装 ① Gumbel-MCTS …

論文メモ:AI co-scientistによる科学的発見の加速

マルチエージェントシステムによる研究仮説提案(AI共同科学者)論文を読んだメモ。 Towards an AI co-scientist research.google ※本記事のすべての画像は以上のリンクが出典 GoogleのAI co-scientist(AI共同研究者) 研究仮説提案のためのマルチエージェ…

LLMチューニングのための強化学習①:GRPO(Group Relative Policy Optimization)

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO(Group Relative Policy Optimization)について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法 前提手法:TRPO/PPO TRPO: Trust Region Policy Optimi…

サンプル効率強化学習①:Bigger, Better, Fasterの実装

たった2時間のゲームプレイで人間相当性能に到達可能なサンプル効率の高い強化学習手法 ”Bigger, Better, Faster”を実装します。 背景: 強化学習実用の課題は劣悪なサンプル効率 強化学習におけるサンプル効率向上アプローチ 評価指標: Atari-100Kベンチ…

AlphaFoldの進化史: 初代からAlphaFold3まで

AlphaFold3が発表されたのでこれまでの技術的変遷を復習します。 初代AlphaFold (2019) インパクト: 深層学習によるゲームチェンジ 手法概要 ① 残基間距離行列の予測ステップ ② 二面角(ΦΨ)の数理最適化ステップ Note: 距離行列予測は苦しい AlphaFold2 (20…

拡散モデルによる分子デザイン①: 同変グラフ拡散モデルの実装

同変グラフ畳み込み拡散モデル(EDM: E(3) Equivariant Diffusion Model)による分子生成をtf2で実装します。 同変グラフ拡散モデルによる分子生成 拡散モデルによる分子デザイン 拡散モデルの優位性 ① 学習安定性が高く、大きく複雑な構造生成が可能 ② 高精…

LLM時代の強化学習

強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる…

オフライン強化学習④: 拡散モデルの台頭

オフライン強化学習における拡散方策の近年の適用例を概観し、tensorflowで実装します。 背景 拡散方策(Diffusion Policy)の登場 模倣学習の大幅な性能向上 Diffusion-QLの衝撃 主要な手法・論文 Diffusion-QL:拡散方策のミニマリストアプローチ IDQL: I…

オフライン強化学習③ Implicit Q-Learning (IQL)の実装

Implicit Q-Learningでは、maxQ(s,a)の評価を期待回帰(Expectile Regression)によって暗黙的に行うことでオフライン強化学習の困難の一つであるサンプル外アクション問題を回避します openreview.net オフライン強化学習の困難 オフライン強化学習とは サン…

プロンプト戦略による大規模言語モデルのドメイン適応:Med-PaLMの例

プロンプト戦略のみで大規模言語モデルの医療ドメイン適応に成功したMed-PaLMのアプローチをまとめます。 ナレッジベースとしての大規模言語モデル Med-PaLM:プロンプト戦略によるドメイン適応 プロンプト戦略:Instruction Prompt Tuning ハードプロンプト…

安全で信頼できる対話AIのためのアプローチ:InstructGPT, Sparrow, Galactica

OpenAIのInstructGPT, DeepMindのSparrow, MetaのGalacticaにおける対話AIの信頼性/安全性向上のためのアプローチをまとめます Words have the power to both destroy and heal. When words are both true and kind, they can change our world. 言葉は人を…

オフライン強化学習② Decision Transformerの系譜

Decision transoformer (2021)は、自然言語モデルGPTにおける次トークン予測の枠組みでオフライン強化学習タスクを解けることを示し新たなパラダイムをもたらしました。最近ではDeepMindの超汎用エージェントGATOなどもDecision Transformerベースのアーキテ…

オフライン強化学習① Conservative Q-Learning (CQL)の実装

オフライン強化学習の有名手法CQLについて、簡単な解説とともにブロック崩し環境向けのtf2実装を紹介します [2006.04779] Conservative Q-Learning for Offline Reinforcement Learning sites.google.com はじめに:オフライン強化学習とは 問題設定:ゲーム…

論文メモ:深層強化学習によるトカマク型核融合炉の制御

DeepMindの深層強化学習による核融合炉制御論文を読んだので論文内容と論文を理解するために調べた技術背景をまとめます。 Accelerating fusion science through learned plasma control www.nature.com 要約 技術背景:核融合炉の仕組み 核分裂エネルギーと…

強化学習 as Inference: Maximum a Posteriori Policy Optimizationの実装

方策が最適である確率の下界をEMアルゴリズムっぽく最大化する強化学習手法 Maximum a Posteriori policy Optimization (ICLR2018) をBipedalWalker-v3向けにtensorflow2で実装します。 openreview.net はじめに 方策勾配法: 劣悪なサンプル効率と不安定…

世界モデルベース強化学習①: DreamerV2の実装

世界モデル系強化学習の先端手法であるDreamerV2をブロック崩し(BreakoutDeterministic-v4)向けに実装しました。 はじめに 世界モデルベース強化学習とは DreamerV2:Atari環境で初めてモデルフリー手法に並んだ世界モデルベース強化学習 世界モデル(Worl…

スッキリわかるAlphaFold2

注意: Alphafold2の手法解説です。使い方の説明ではありません 構造生物学ドメインにはある程度の説明をつけます アーキテクチャ設計の意図については個人の考察であり、正しさに何ら保証がありません AttentionとTransformerそのものについての説明は行い…

GKE+Rayで実装するマルチノード分散並列強化学習

Google Kubernetes Engine (GKE) とpythonの分散処並列理ライブラリRayで安価に大規模分散並列強化学習(Ape-Xアーキテクチャ)の実行環境をつくるチュートリアルです。GKEのプリエンプティブルインスタンスを活用することで、総リソース 128 vCPU, NVIDIA T…

MuZeroの実装解説(for Breakout)

MuZero = 状態遷移モデル+AlphaZero を簡単に解説しつつ、atari環境のBreakout(ブロック崩し)向けにtensorflow2での実装例を紹介します MuZeroとは アルゴリズムの概要 モンテカルロ木探索 MuZero版モンテカルロ木探索 VAE系世界モデルとの比較 MuZero Re…

スッキリわかるAlphaZero

The game of Go has long been viewed as the most challenging of classic games for artificial intelligence 囲碁はAIにとってもっとも困難なボードゲームの一つと考えられてきました (Mastering the game of Go with deep neural networks and tree sear…

rayで実装する分散強化学習 ④R2D2

Ape-XにRNNを導入することでatari環境において圧倒的SotAを叩き出した分散強化学習手法 R2D2(Recurrent Experience Replay in Distributed Reinforcement Learning)をtensorflow+pythonの分散並列処理ライブラリrayで実装します Recurrent Experience Rep…

深層分布強化学習 ③FQF: Fully Parameterized Quantile Function for Distributional RL

単体でRainbow越えを達成した深層分布強化学習手法FQFをtensorflow2で実装します。 はじめに C51 → QR-DQN → IQN FQFとは:いい感じのτを提案する機構付きのIQN FQFネットワークの実装 FQFアーキテクチャ Feature network:特徴抽出ネットワーク Fraction pr…

深層分布強化学習 ②QR-DQN

QR-DQNをtensorflow2で実装します。 元論文: [1710.10044] Distributional Reinforcement Learning with Quantile Regression はじめに Categorical DQNの分布モデル QR-DQNの分布モデル 分位点回帰 分位点Huberloss QR-DQNの実装 QRネットワークの実装 分…

rayで実装する分散強化学習 ③Ape-X DQN

深層強化学習における超大規模分散並列化の有用性を示したApeX-DQN(Distributed Prioritized Experience Replay)をtensorflow2とrayで実装します。手法の構成要素自体はRainbowとだいたい同じであるため、本記事の焦点は分散並列学習の実装です。 はじめに…

Segment Tree(セグメント木)による重み付きランダムサンプリング

競技プログラミング界隈では一般教養であるらしいセグメント木のSum-tree構造で高速な重み付きサンプリングを実装します。 はじめに A. numpy.choiceによる重み付きランダムサンプリング B. 累積和による重み付きランダムサンプリング C. Sum-tree構造を活用…

DQNの進化史 ④Rainbowの実装

Deep-Q-Network (2013) 以降の深層強化学習(Q学習)の発展を、簡単な解説とtensorflow2での実装例と共に紹介していきます。今回はDQNの改良トリックを全部盛りにしたら強いんでは?という脳筋発想によって生まれた手法であるRainbowを実装します。 DQNシリ…

DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51

Deep-Q-Network以降の深層強化学習(というか深層Q学習)の発展を、簡単な解説とtensorflow2での実装例と共に紹介していきます。今回は経験再生の改良である優先度付き経験再生(Prioritized experience replay)、方策勾配法ではよく使われるMulti-step lea…