Editing Openai/6924c941-3e3c-8006-945a-8a314a773d48 (section)

==== 3. データ生成パイプライン：マルチエージェントで作る合成「操作ログ」 ====

===== 3.1 なぜ合成データが必要か =====

CUA の学習用データは、
* 1 タスクが数十ステップに及ぶ
* 各ステップごとに「どこを見てどう行動したか」をラベル付け

…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

===== 3.2 段階1：Task Proposal（タスク生成） =====

Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
* 公開 Web をクロールし、URL をカテゴリ付け（ショッピング、旅行、レストランなど）
* それを「シード」として、 例：映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。
* さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化

こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

: WebTailBench の “Tail” は、
: 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」
: （求人探し、不動産、価格比較、予約など）を意識している。

===== 3.3 段階2：Task Solving（マルチエージェントで解く） =====

生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>

主な役割：
* Orchestrator エージェント - 全体のプランを立て、次に何をするか指示
* WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当
* UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる（例：ログイン情報、選好など）

それぞれが、

: 観察（画面） → 思考メッセージ → 行動（ツールコール）

を繰り返し、1 タスク分の “trajectory（軌跡）” を生成します。Fara-7B_An_efficient_agentic_sm…

===== 3.4 段階3：Trajectory Verification（自動審査） =====

生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
# Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか
# Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング
# Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認

基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。

===== 3.5 学習データの規模 =====

最終的に、
* 145,000 trajectory
* 約 100 万ステップ

からなるデータセットを構築し、これに加えて
* UI 要素の位置当て（grounding）
* 画像キャプション
* VQA（視覚質問応答）

といった補助タスク用データも入れて学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>