Editing Openai/692aba85-5b10-8006-817a-d5a83b020f8e (section)

====== 2.1.2 非同期オフポリシー学習 ======
* 通常の同期 on-policy RL だと、 「ロールアウト生成 → 勾配計算 → パラメータ更新」が逐次になるため、 推論側がパラメータ更新待ちで止まる。
* prime-rl では オフポリシーを許容して非同期化： - 推論側は少し古いパラメータ θₙ を使い続けてロールアウトを生成 - その間に Trainer 側は θₙ から θₙ₊₁ へ更新を進める
* 図3（p6）のように、理想化すれば「常に1ステップ遅れ」くらいの off-policy で走るイメージ。

このとき生じる trainer-inference のミスマッチは後述の 重要度サンプリング＋マスキング で制御します。INTELLECT_3_Technical_Report