Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/692aba85-5b10-8006-817a-d5a83b020f8e
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
===== 3.1 環境ミックス ===== 6カテゴリの環境を組み合わせています。INTELLECT_3_Technical_Report # Math(i3-math, 21.2k問) - 元データ:Skywork-OR1, Acereason-Math, DAPO, ORZ-Hard などから高難度問題を抽出 - 検証: - まず math-verify で記号的に採点 - 間違い判定になったものは CompassVerifier-7B(LLM judge)でも再チェック → ルールベースの偽陰性を補正 - 難易度付け:Qwen3-4B-Thinking が8サンプル生成したときの成功率で easy / normal / hard に分ける # Code(i3-code, 8.6k問) - Python 単発プログラミング問題 - SYNTHETIC-2 データセットをベースに、1問あたり最大15テストケースを Prime Sandboxes で実行 - サンドボックスが壊れた場合はその completion をマスク - 難易度付けは Qwen3-4B-Instruct の成功率で # Science(i3-science, 29.3k問) - MegaScience からフィルタした物理・化学・生物など - math-verify+LLM judge の二段構えで採点 - 難易度付けも Qwen3-4B-Instruct # Logic(i3-logic, 11.6k問) - SynLogic 由来の29種類の論理パズル/ゲーム(ブール式評価、クロスワード、数独、マインスイーパーなど) - 同様に Qwen3-4B-Instruct の成功率で難易度付け # Deep Research(deepdive 環境) - Serper ベースの web search tool、click / open tool、finish tool を使う「ウェブ調査」環境 - z-AI DeepDive データセットから - SFT 用軌跡 1k - RL 用 2.2k - 検証として、Qwen3-4B-Instruct を SFT→RL した小実験を行い、 図7(p15)のように RL 中に平均報酬がちゃんと上がることを確認(環境実装の検証)。 # Software Engineering(deepswe / mini-swe-agent-plus) - R2E-Gym と mini-swe-agent-plus をベースにしたエージェント scaffold を2種類用意 - サンドボックス内で - Bash 実行ツール - ファイル編集ツール を使ってGitHubリポジトリのバグ修正を行う - 最大200ターンまで行動可、最後にテストスイートで成功判定 - 2万以上のGitHubリポを事前にインストールしたイメージを Prime Sandboxes 上に用意
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)