2025-01-26から1日間の記事一覧

2025-01-26

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization）

DeepSeek-R1にも採用されたLLMチューニングのための強化学習手法 GRPO（Group Relative Policy Optimization）について考えたことをまとめます。 GRPO: DeepSeek-R1の強化学習ファインチューニング手法前提手法：TRPO/PPO TRPO: Trust Region Policy Optimi…

#強化学習

どこから見てもメンダコ

軟体動物門頭足綱八腕類メンダコ科

2025-01-26から1日間の記事一覧

LLMチューニングのための強化学習①：GRPO（Group Relative Policy Optimization）