Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

===== 3.1 環境ミックス =====

6カテゴリの環境を組み合わせています。INTELLECT_3_Technical_Report
# Math（i3-math, 21.2k問） - 元データ：Skywork-OR1, Acereason-Math, DAPO, ORZ-Hard などから高難度問題を抽出 - 検証： - まず math-verify で記号的に採点 - 間違い判定になったものは CompassVerifier-7B（LLM judge）でも再チェック → ルールベースの偽陰性を補正 - 難易度付け：Qwen3-4B-Thinking が8サンプル生成したときの成功率で easy / normal / hard に分ける
# Code（i3-code, 8.6k問） - Python 単発プログラミング問題 - SYNTHETIC-2 データセットをベースに、1問あたり最大15テストケースを Prime Sandboxes で実行 - サンドボックスが壊れた場合はその completion をマスク - 難易度付けは Qwen3-4B-Instruct の成功率で
# Science（i3-science, 29.3k問） - MegaScience からフィルタした物理・化学・生物など - math-verify＋LLM judge の二段構えで採点 - 難易度付けも Qwen3-4B-Instruct
# Logic（i3-logic, 11.6k問） - SynLogic 由来の29種類の論理パズル／ゲーム（ブール式評価、クロスワード、数独、マインスイーパーなど） - 同様に Qwen3-4B-Instruct の成功率で難易度付け
# Deep Research（deepdive 環境） - Serper ベースの web search tool、click / open tool、finish tool を使う「ウェブ調査」環境 - z-AI DeepDive データセットから - SFT 用軌跡 1k - RL 用 2.2k - 検証として、Qwen3-4B-Instruct を SFT→RL した小実験を行い、 図7（p15）のように RL 中に平均報酬がちゃんと上がることを確認（環境実装の検証）。
# Software Engineering（deepswe / mini-swe-agent-plus） - R2E-Gym と mini-swe-agent-plus をベースにしたエージェント scaffold を2種類用意 - サンドボックス内で - Bash 実行ツール - ファイル編集ツール を使ってGitHubリポジトリのバグ修正を行う - 最大200ターンまで行動可、最後にテストスイートで成功判定 - 2万以上のGitHubリポを事前にインストールしたイメージを Prime Sandboxes 上に用意