Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

==== INTELLECT-3 の大きな売りは、'''「中身の RL スタックごと全部オープン」'''な点です。 ====

===== - INTELLECT-3 自体が、 GLM-4.5-Air-Base → SFT → RL（prime-rl） というレシピで訓練されています。Hugging Face<ref>{{cite web|title=Hugging Face|url=https://huggingface.co/PrimeIntellect/INTELLECT-3|publisher=Hugging Face|access-date=2025-11-29}}</ref> =====
* 同じ prime-rl を使って、 自前データや独自環境で 自分のモデルを RL で強化することが可能。

おおまかな流れ：
# prime-rl / 関連パッケージをインストール
# ベースモデル（GLM-4.5-Air か、自前モデル）を用意
# verifiers / Environments Hub から環境を選ぶ or 自作する
# prime-rl の設定ファイルで - どの環境を使うか - 報酬設計 - ロールアウト長・バッチサイズ などを指定して学習ジョブを走らせる

INTELLECT-3 のテクニカルレポートには、
非同期オフポリシー学習・連続バッチング・in-flight weight update など
prime-rl の実装詳細がかなり丁寧に書かれているので、それを参考に自前トレーニング設計を詰めていく形です。storage.googleapis.com<ref>{{cite web|title=storage.googleapis.com|url=https://storage.googleapis.com/intellect-3-paper/INTELLECT_3_Technical_Report.pdf|publisher=storage.googleapis.com|access-date=2025-11-29}}</ref>

===== - GitHub: PrimeIntellect-ai/verifiersGitHub<ref>{{cite web|title=GitHub|url=https://github.com/PrimeIntellect-ai/verifiers|publisher=github.com|access-date=2025-11-29}}</ref> =====
* Environments Hub に、数学・コード・科学・推論・ディープリサーチなどの環境がまとまっていて、 verifiers ライブラリを通じて prime-rl から呼び出せます。primeintellect.ai<ref>{{cite web|title=primeintellect.ai|url=https://www.primeintellect.ai/blog/intellect-3|publisher=primeintellect.ai|access-date=2025-11-29}}</ref>

CLI の典型的な使い方（概要）：
# uv tool install prime で CLI を入れる
# prime login で認証
# 自作環境をパッケージ化して prime env push で Hub に公開
# 学習用ノード側では prime env install owner/name で環境を取得

こうして 環境をコードとしてバージョン管理しつつ、複数のモデル・実験から再利用できます。

===== - HF コレクションには INTELLECT-3-RL Viewer / INTELLECT-3-SFT Viewer が含まれ、 どういうタスク・報酬で学習したかを可視化したスペースが公開されています。Hugging Face<ref>{{cite web|title=Hugging Face|url=https://huggingface.co/collections/PrimeIntellect/intellect-3|publisher=Hugging Face|access-date=2025-11-29}}</ref> =====

これを読むと、
* どのカテゴリの環境がどれくらい効いていそうか
* 学習中にベンチマークスコアがどう立ち上がっているか

などが分かるので、自分で RL 設計するときのかなり具体的な参考資料になります。