Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/692aba85-5b10-8006-817a-d5a83b020f8e
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
==== 3. INTELLECT-3 の具体的な学習 ==== ===== 3.1 環境ミックス ===== 6カテゴリの環境を組み合わせています。INTELLECT_3_Technical_Report # Math(i3-math, 21.2k問) - 元データ:Skywork-OR1, Acereason-Math, DAPO, ORZ-Hard などから高難度問題を抽出 - 検証: - まず math-verify で記号的に採点 - 間違い判定になったものは CompassVerifier-7B(LLM judge)でも再チェック → ルールベースの偽陰性を補正 - 難易度付け:Qwen3-4B-Thinking が8サンプル生成したときの成功率で easy / normal / hard に分ける # Code(i3-code, 8.6k問) - Python 単発プログラミング問題 - SYNTHETIC-2 データセットをベースに、1問あたり最大15テストケースを Prime Sandboxes で実行 - サンドボックスが壊れた場合はその completion をマスク - 難易度付けは Qwen3-4B-Instruct の成功率で # Science(i3-science, 29.3k問) - MegaScience からフィルタした物理・化学・生物など - math-verify+LLM judge の二段構えで採点 - 難易度付けも Qwen3-4B-Instruct # Logic(i3-logic, 11.6k問) - SynLogic 由来の29種類の論理パズル/ゲーム(ブール式評価、クロスワード、数独、マインスイーパーなど) - 同様に Qwen3-4B-Instruct の成功率で難易度付け # Deep Research(deepdive 環境) - Serper ベースの web search tool、click / open tool、finish tool を使う「ウェブ調査」環境 - z-AI DeepDive データセットから - SFT 用軌跡 1k - RL 用 2.2k - 検証として、Qwen3-4B-Instruct を SFT→RL した小実験を行い、 図7(p15)のように RL 中に平均報酬がちゃんと上がることを確認(環境実装の検証)。 # Software Engineering(deepswe / mini-swe-agent-plus) - R2E-Gym と mini-swe-agent-plus をベースにしたエージェント scaffold を2種類用意 - サンドボックス内で - Bash 実行ツール - ファイル編集ツール を使ってGitHubリポジトリのバグ修正を行う - 最大200ターンまで行動可、最後にテストスイートで成功判定 - 2万以上のGitHubリポを事前にインストールしたイメージを Prime Sandboxes 上に用意 ===== 3.2 Supervised Fine-Tuning(SFT) ===== SFT は2段構え。INTELLECT_3_Technical_Report ====== ステージ1:一般チャット+Reasoning SFT ====== データソース(表1, p16): * NVIDIA Nemotron Post-Training Dataset v1 の - OpenReasoning-Math(200万例, 78.1Bトークン) - OpenReasoning-Code(190万例, 94.3B) - OpenReasoning-Science(31万例, 32B) - OpenReasoning-Tool(80万例, 3.8B) * AM-DeepSeek-R1-0528-Distilled の - General Chat(95.2万例, 8.4B) - Instruction Following(5.4万例, 0.4B) いずれも DeepSeek-R1-0528 由来の高品質な思考トレースを含む合成データ。 設定: * コンテキスト長 65k * 1エポック、1ステップあたり ≈33M トークン * Optimizer: Muon, weight decay 0.01 * LR: 5e-5(300ステップで 1e-8 から線形ウォームアップ) * FSDP world size=64, DP replicate 8 → 512 GPUをフル活用 * 図8(a) の loss カーブはスムーズで、発散やスパイクは見られない ====== ステージ2:Agentic SFT ====== 目的: * ツール利用 * 長時間エージェント行動 * 65k 以上の長コンテキストへの慣れ 追加データ: * SWE-Swiss(SWEエージェントタスク) * Toucan Tool(ツール利用データ) * Environments Hub 上の各環境で DeepSeek-R1-0528 を走らせて作った軌跡 設定: * ステージ1の最終チェックポイントから再開 * 文脈長 98k(Context Parallelism により拡張) * 2エポック、800ステップ * Muon, LR 5e-8 から線形減衰 * 図8(b) の loss も安定 ====== チャットテンプレートと「常に思考する」設計 ====== * Qwen3 / GLM 系に似た <|system|>, <|user|>, <|assistant|>, <|im_start|>, <|im_end|> の構造 * ツールコールは XML 風タグ * 特徴的なのは - ユーザ側には「思考モードの切り替え」を見せず、常に内部で<|think|>トークンを使って思考させる - multi-turn で reasoning_content を自動パースし、前ターンの思考をうまく継続できるようにしている - 実際に使うときは qwen3_coder tool parser と deepseek_r1 reasoning parser を使うことを推奨 ===== 3.3 Reinforcement Learning フェーズ ===== ====== 設定 ====== * バッチサイズ:256プロンプト × 各プロンプト16ロールアウト * 最大コンテキスト長:65,536 * オンライン難易度フィルタ+「easyプールのpass率1問題を除外」 * max_off_policy_steps = 8 * Optimizer: Muon, LR 1e-6 * クラスタ構成: - 60ノード(計480 H200)を使用 - うち 16ノードを Trainer、44ノードを Inference に割り当て(≒1:3) - in-flight weight update ありの場合、1ステップ ≈1500秒 なしだと 2倍以上かかる ====== 学習アルゴリズム:masked importance sampling(IcePop系) ====== 目的:非同期 off-policy による trainer-inference ミスマッチを安全にコントロールすること。INTELLECT_3_Technical_Report 数式的には、N本のロールアウト {y_i} に対して * 重要度比 ri,t=πtrain(yi,t∣x,yi,<t;θ)πinfer(yi,t∣x,yi,<t;θold)r_{i,t} = \frac{\pi_{\text{train}}(y_{i,t}|x,y_{i,<t};\theta)}{\pi_{\text{infer}}(y_{i,t}|x,y_{i,<t};\theta_\text{old})}ri,t=πinfer(yi,t∣x,yi,<t;θold)πtrain(yi,t∣x,yi,<t;θ) * これを [α, β] = [0.5, 5] の範囲内にあるトークンだけ採用し、それ以外はマスク(寄与0) * ロールアウト i の報酬 Sᵢ に対し、同一プロンプト内で平均を引いた A^i,t=Si−mean(Sj)\hat{A}_{i,t} = S_i - \text{mean}({S_j})A^i,t=Si−mean(Sj) をトークンごとの advantage とみなす * さらに どこか1トークンでも重要度比が非常に小さい(< 1e-5)ロールアウトは全体を破棄 という設計です。 これは CISPO に近い発想ですが、clipping ではなく masking にすることで、比率が暴れたサンプルがノイズとして残るのを防いでいる、と説明しています。図10(p18)では、GSPO と CISPO 系アルゴリズムを比較したとき、GSPO が高 off-policy 設定(async-8)で突然 reward 崩壊を起こす様子が示され、これが実験上の安全性問題になると述べています。 ====== オンライン評価 ====== 図9(p17)では、AIME24/25, HLE, LiveCodeBench, GPQA のスコアが、ステップを追うごとに着実に上昇していることが示されています。 * どのベンチマークも まだ明確に頭打ちになっていない → さらに RL を継続すればまだ伸びる余地がある、というのが著者の結論です。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)