Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

==== 3. INTELLECT-3 の具体的な学習 ====

===== 3.1 環境ミックス =====

6カテゴリの環境を組み合わせています。INTELLECT_3_Technical_Report
# Math（i3-math, 21.2k問） - 元データ：Skywork-OR1, Acereason-Math, DAPO, ORZ-Hard などから高難度問題を抽出 - 検証： - まず math-verify で記号的に採点 - 間違い判定になったものは CompassVerifier-7B（LLM judge）でも再チェック → ルールベースの偽陰性を補正 - 難易度付け：Qwen3-4B-Thinking が8サンプル生成したときの成功率で easy / normal / hard に分ける
# Code（i3-code, 8.6k問） - Python 単発プログラミング問題 - SYNTHETIC-2 データセットをベースに、1問あたり最大15テストケースを Prime Sandboxes で実行 - サンドボックスが壊れた場合はその completion をマスク - 難易度付けは Qwen3-4B-Instruct の成功率で
# Science（i3-science, 29.3k問） - MegaScience からフィルタした物理・化学・生物など - math-verify＋LLM judge の二段構えで採点 - 難易度付けも Qwen3-4B-Instruct
# Logic（i3-logic, 11.6k問） - SynLogic 由来の29種類の論理パズル／ゲーム（ブール式評価、クロスワード、数独、マインスイーパーなど） - 同様に Qwen3-4B-Instruct の成功率で難易度付け
# Deep Research（deepdive 環境） - Serper ベースの web search tool、click / open tool、finish tool を使う「ウェブ調査」環境 - z-AI DeepDive データセットから - SFT 用軌跡 1k - RL 用 2.2k - 検証として、Qwen3-4B-Instruct を SFT→RL した小実験を行い、 図7（p15）のように RL 中に平均報酬がちゃんと上がることを確認（環境実装の検証）。
# Software Engineering（deepswe / mini-swe-agent-plus） - R2E-Gym と mini-swe-agent-plus をベースにしたエージェント scaffold を2種類用意 - サンドボックス内で - Bash 実行ツール - ファイル編集ツール を使ってGitHubリポジトリのバグ修正を行う - 最大200ターンまで行動可、最後にテストスイートで成功判定 - 2万以上のGitHubリポを事前にインストールしたイメージを Prime Sandboxes 上に用意

===== 3.2 Supervised Fine-Tuning（SFT） =====

SFT は2段構え。INTELLECT_3_Technical_Report

====== ステージ1：一般チャット＋Reasoning SFT ======

データソース（表1, p16）：
* NVIDIA Nemotron Post-Training Dataset v1 の - OpenReasoning-Math（200万例, 78.1Bトークン） - OpenReasoning-Code（190万例, 94.3B） - OpenReasoning-Science（31万例, 32B） - OpenReasoning-Tool（80万例, 3.8B）
* AM-DeepSeek-R1-0528-Distilled の - General Chat（95.2万例, 8.4B） - Instruction Following（5.4万例, 0.4B）

いずれも DeepSeek-R1-0528 由来の高品質な思考トレースを含む合成データ。

設定：
* コンテキスト長 65k
* 1エポック、1ステップあたり ≈33M トークン
* Optimizer: Muon, weight decay 0.01
* LR: 5e-5（300ステップで 1e-8 から線形ウォームアップ）
* FSDP world size=64, DP replicate 8 → 512 GPUをフル活用
* 図8(a) の loss カーブはスムーズで、発散やスパイクは見られない

====== ステージ2：Agentic SFT ======

目的：
* ツール利用
* 長時間エージェント行動
* 65k 以上の長コンテキストへの慣れ

追加データ：
* SWE-Swiss（SWEエージェントタスク）
* Toucan Tool（ツール利用データ）
* Environments Hub 上の各環境で DeepSeek-R1-0528 を走らせて作った軌跡

設定：
* ステージ1の最終チェックポイントから再開
* 文脈長 98k（Context Parallelism により拡張）
* 2エポック、800ステップ
* Muon, LR 5e-8 から線形減衰
* 図8(b) の loss も安定

====== チャットテンプレートと「常に思考する」設計 ======
* Qwen3 / GLM 系に似た <|system|>, <|user|>, <|assistant|>, <|im_start|>, <|im_end|> の構造
* ツールコールは XML 風タグ
* 特徴的なのは - ユーザ側には「思考モードの切り替え」を見せず、常に内部で<|think|>トークンを使って思考させる - multi-turn で reasoning_content を自動パースし、前ターンの思考をうまく継続できるようにしている - 実際に使うときは qwen3_coder tool parser と deepseek_r1 reasoning parser を使うことを推奨

===== 3.3 Reinforcement Learning フェーズ =====

====== 設定 ======
* バッチサイズ：256プロンプト × 各プロンプト16ロールアウト
* 最大コンテキスト長：65,536
* オンライン難易度フィルタ＋「easyプールのpass率1問題を除外」
* max_off_policy_steps = 8
* Optimizer: Muon, LR 1e-6
* クラスタ構成： - 60ノード（計480 H200）を使用 - うち 16ノードを Trainer、44ノードを Inference に割り当て（≒1:3） - in-flight weight update ありの場合、1ステップ ≈1500秒 なしだと 2倍以上かかる

====== 学習アルゴリズム：masked importance sampling（IcePop系） ======

目的：非同期 off-policy による trainer-inference ミスマッチを安全にコントロールすること。INTELLECT_3_Technical_Report

数式的には、N本のロールアウト {y_i} に対して
* 重要度比 ri,t=πtrain(yi,t∣x,yi,<t;θ)πinfer(yi,t∣x,yi,<t;θold)r_{i,t} = \frac{\pi_{\text{train}}(y_{i,t}|x,y_{i,<t};\theta)}{\pi_{\text{infer}}(y_{i,t}|x,y_{i,<t};\theta_\text{old})}ri,t=πinfer(yi,t∣x,yi,<t;θold)πtrain(yi,t∣x,yi,<t;θ)
* これを [α, β] = [0.5, 5] の範囲内にあるトークンだけ採用し、それ以外はマスク（寄与0）
* ロールアウト i の報酬 Sᵢ に対し、同一プロンプト内で平均を引いた A^i,t=Si−mean(Sj)\hat{A}_{i,t} = S_i - \text{mean}({S_j})A^i,t=Si−mean(Sj) をトークンごとの advantage とみなす
* さらに どこか1トークンでも重要度比が非常に小さい（< 1e-5）ロールアウトは全体を破棄

という設計です。

これは CISPO に近い発想ですが、clipping ではなく masking にすることで、比率が暴れたサンプルがノイズとして残るのを防いでいる、と説明しています。図10（p18）では、GSPO と CISPO 系アルゴリズムを比較したとき、GSPO が高 off-policy 設定（async-8）で突然 reward 崩壊を起こす様子が示され、これが実験上の安全性問題になると述べています。

====== オンライン評価 ======

図9（p17）では、AIME24/25, HLE, LiveCodeBench, GPQA のスコアが、ステップを追うごとに着実に上昇していることが示されています。
* どのベンチマークも まだ明確に頭打ちになっていない → さらに RL を継続すればまだ伸びる余地がある、というのが著者の結論です。