どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

LLMチューニングのための強化学習②:GSPO(Group Sequence Policy Optimization)

Qwen3の推論強化チューニング手法であるGSPO(Group Sequence Policy Optimization)について考えたことをまとめます。

過去記事:
horomary.hatenablog.com

GSPO: 学習安定性が向上したGRPO

Group Sequence Policy Optimization (GSPO) は、LLM向け強化学習手法であるGRPO(Group Relative Policy Optimization)に改良を行い、大幅な学習安定性向上に成功した手法です 。

arxiv.org

論文Fig1:GSPOとGRPOの学習効率比較

特に、PPOやGRPOなどの従来手法では学習が不安定になりがちであったMoE(Mixture-of-Experts)モデルでの安定性向上が顕著であり、大規模MoEであるQwen3の性能向上に大きく貢献したとされています。


シーケンスレベル重点サンプリングによる分布補正ノイズの低減

GSPOGRPOの改良手法であり、そのアルゴリズム的差分はアドバンテージ(A)の重点サンプリングをトークンレベルからシーケンス(応答文全体)レベルへと変更したという一点のみです 。ごくわずかな変更でありながら、この改良は重点サンプリングによる分布補正ノイズを低減する効果があるため学習安定性の向上が期待できるとされています。

GSPOは重要度比sをトークン位置に関わらずシーケンス尤度で定義

前提:重点サンプリングとは?

重点サンプリング法 - Wikipedia

重点サンプリング法とは関心のある確率分布(ターゲット分布)からのサンプルを直接得ることが難しい場合に、異なる分布(提案分布)から得られたサンプルを用いてその分布の特性を評価する手法です。

Gemini君による解説

なお、LLM向けの強化学習において重点サンプリングは本来オンポリシー手法である方策勾配法を近似的にオフポリシー化するために使われます。オンポリシー手法である方策勾配法では本来は1回の勾配更新ごとにすべての学習データを破棄する必要がありますが、オフポリシー化することで古いデータの再利用が可能となるため、全体の計算コストを大幅に削減できます。

ここで、重点サンプリングによる分布補正の精度は提案分布のサンプル数に大きく依存することに注意が必要です。以下のグラフはGemini君にサンプル数によって分布補正の推定精度がどのように変化するかをシミュレーションを行い、プロットしてもらったものです。

サンプル数による推定精度の変化 by Gemini君

チャートから、サンプル数の増加に伴って推定ノイズ(RMSE)が減少することが分かります。このサンプル数による分布補正の精度差こそがPPO/GRPOと比較してGSPOの学習安定性が高いとされている理由の一つです。

サンプル数効果による分布補正の推定精度向上

GSPOがGRPOよりも良好な学習安定性を持つ理由として、論文*1ではトークンレベルでは重点サンプリングの推定精度において重要となる、多数のサンプルによる平均化効果が得られないため*2であると考察されています。

具体的には、GRPOの目的関数における重要度比  \text{w}_\text{i, t} (importance ratio)は、以下のようにトークンレベルで定義されています。

GRPOのimportance ratio

 xは質問文、 y_\text{i<t} は出力済みの回答文であるので、これはLLMの次トークン予測分布を提案分布として重点サンプリングを行っているということになります。

しかし、この場合トークンごとに提案分布が受け取るコンテクストが異なるために次トークン予測分布もトークンごとに異なるものとなり、これは各トークンごとに異なる提案分布でN=1の重点サンプリングを行っている、とも解釈できます。すなわち重点サンプリングの推定精度で重要となる、複数サンプルでの平均化効果が得られないため分布補正に高分散ノイズが導入されると考えられます。

一方で、GSPOの目的関数における重要度比  \text{s}_\text{i} は以下のようにシーケンスレベルで定義されています。( \frac{1}{| y_{i} |} の役割については後述)

 
GSPOの重要度比

この場合、提案分布が受け取るコンテクストがすべてのシーケンスにおいて質問文 xのみになっていることから、これは同じ提案分布から得られた複数のサンプルで重点サンプリングを行っていると解釈できるため、平均化効果による分布補正の精度向上が期待できます。

大規模MoEモデルの学習安定化効果

重点サンプリングにおける推定ノイズを低減するためには、前述したようにサンプル数が重要であるというのに加えて、提案分布とターゲット分布が十分に近いこと(=重要度比  \frac{p(x)}{q(x)} が1に近い)というのもまた重要です。

UCバークレーの講義資料

とくに大規模MoEモデルにおいては、エキスパートの活性化比率がわずかに変化しただけで次トークン予測分布が劇的に変化し、「重要度比 \frac{p(x)}{q(x)} が十分に近い」という重点サンプリングの前提がしばしば崩壊するために、従来のトークンレベル手法(PPOやGRPOなど)での推論強化トレーニングは深刻な不安定性の問題を抱えていました。

GSPO論文Fig.3

この問題への対症療法として、Qwenチームは従来Routing Replay という訓練戦略を採用していたとのことです。これは古い方策  \pi_{\theta\text{old}}で活性化されたエキスパート構成をキャッシュしておき、重要度比の計算の際には古い方策πθold と現在方策πθでエキスパートの活性化構成を強制的に同じにするという方法でトークンレベル重要度比の急激な変化を抑制するトリックです。

一方、エキスパートの活性化構成が変化してもセンテンスレベルでの尤度であればそれほど大きく変化しないため、シーケンスレベルでの重点サンプリングを行うGSPOではRouting Replayのような死ぬほど面倒くさいトリック無しでも安定した訓練が実現できることが示されています。

幾何平均による爆発防止トリック

ところで、GSPOの重要度比には \frac{1}{| y_{i} |} がくっついていることにお気づきでしょうか。全体をステップ長|y|で乗根しているこの計算は幾何平均を求めることに相当し、これにより系列全体の確率比を1ステップあたりの平均的な確率比に正規化(ならす)することができます。

GSPOの重要度比

たとえば、トークン当たりの重要度比  \frac{p(x)}{q(x)} が仮に1.1だったとしても、300トークンで構成される文章となるとシーケンスレベルでの重要度比は1.1300 ≒ 2.6兆 と容易に値が爆発するため、シーケンスレベルでの重点サンプリングを行う際にはこのような正規化の工夫が必須となります。なお、PPOのクリッピングの仕組みは幾何平均で正規化してもなお重要度比の値が大きく/小さくなりすぎたときの安全装置として機能します。

Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems
3.1 Off-Policy Evaluation via Importance Sampling

シーケンス(トラジェクトリ)レベルの重点サンプリングについて、どのような困難やアプローチがあるのかについてはオフライン強化学習の分野で広く研究されてきたトピックのため、興味があったら上記のチュートリアル論文を読んでみると楽しいかもしれません。

メモ:理論的に厳密な重点サンプリング

※これはGSPO論文では言及されていない個人的な考察であることにご注意ください*3

GSPOの安定化理由について、論文ではトークンレベルでは重点サンプリングの推定精度において重要な多数サンプルによる平均化効果が得られないため」と述べられていたのですが、個人的にはPPO(GRPO)は"近似的"な重点サンプリングを行っているのに対して、GSPOはより理論的に厳密な重点サンプリングを行っているというのも安定性の理由としてあるんじゃないかと思ったのでメモを残します。

まず、GRPOのベース手法となっているPPO/TRPOが行っているトークンレベルの重点サンプリングはそもそも近似的なアプローチであり、より厳密にはGSPOのようにシーケンスレベルで重点サンプリングを行うのが理論的には正しいはずです。

UCバークレーの講義資料

具体的に何かというと、PPOでは状態分布  d^{\pi}(s) が方策の更新前後で不変であると大胆に近似することによりトークンレベルでの重点サンプリングを可能にしているわけです。

 

近似的なため重点サンプリング自体の精度は落ちるはずですが、それでもシーケンス(トラジェクトリ)の途中で頻繁に報酬シグナルが発生する一般的な強化学習環境であれば、価値関数(クリティック)のトークンレベルでの学習が迅速に進み、アドバンテージ推定値の分散低減効果を強力に発揮するためトータルではメリットの方が大きくなるのではないかと思います。

Gemini君によるアドバンテージの一般的な解説

しかし、結果報酬モデル(Outcome Reward Model)を用いた言語モデルの推論強化チューニングでは、報酬シグナルがシーケンスの最後にしか発生しないので価値関数の学習がなかなか進まずアドバンテージ推定値の分散低減効果が得られにくいため、重点サンプリングを近似したデメリットの方が大きく出ているのではないか、というのが私の解釈です*4


GSPO-token: トークン単位で評価可能なバリアント

GSPOではシーケンス単位でアドバンテージの重点サンプリングを行うため、同じセンテンス内であればすべてのトークンで s_{i}(\theta)A_{i}が等しくなります。直感的には、細かい単語のチョイスよりも回答の全体観を重視するアプローチであると言えるでしょう。

しかし、このアプローチは例えばマルチターン強化学習のように報酬が複数ステップに分割して発生するタスクへの適用には不都合が生じます(数学証明タスクで大問が小問1,2に分かれている場合とか)。このようなシナリオに対応するため、GSPO-tokenというトークン粒度でのアドバンテージ調整に対応したGSPOのバリアント手法を同時に提案しています。

GSPO-token

サイゼリヤの間違い探しのような難易度ですが、よく見ると重要度比が  s_{i} s_{i, t}、アドバンテージが A_{i} A_{i, t} と変更されておりセンテンス(=i)だけでなくトークン位置(=t)を考慮できるようになっていることが分かります。

ただし、

 

は1であるので、結局のところ数値的には重要度比  s_{i, t} =  s_{i} であり、ここではstop_gradientを利用したトリックにより勾配の流れ方だけを変えていることに注意が必要です。シーケンス単位の重点サンプリングでアドバンテージを重みづけしたうえで、さらにそれをトークンごとに按分するようなイメージでしょうか。

勾配を見たほうがやっていることが分かりやすいかもしれません。

 

うーん、ナイーブなオフライン方策勾配法との区別がつかない...。

参考資料

UCバークレーの講義資料

John Schulmanの講義資料

*1:論文というよりはテクニカルレポートかも

*2:GRPO applies the importance weight πθ (yi,t |x,yi,<t )πθold (yi,t |x,yi,<t ) at each token position t. Since this weight is based on a single sample yi,t from each next-token distribution πθold (·|x, yi,<t), it fails to perform the intended distribution-correction role. Instead, it introduces high-variance noise into the training 2gradients, which accumulates over long sequences and is exacerbated by the clipping mechanism. We have empirically observed that this can lead to model collapse that is often irreversible.

*3:変なこと言ってたらコメントで教えてね!

*4:実際、GRPOは価値関数のトークンレベル学習を捨てて成功していますし