Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/6924c941-3e3c-8006-945a-8a314a773d48
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
==== 3. データ生成パイプライン:マルチエージェントで作る合成「操作ログ」 ==== ===== 3.1 なぜ合成データが必要か ===== CUA の学習用データは、 * 1 タスクが数十ステップに及ぶ * 各ステップごとに「どこを見てどう行動したか」をラベル付け …という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> ===== 3.2 段階1:Task Proposal(タスク生成) ===== Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> * 公開 Web をクロールし、URL をカテゴリ付け(ショッピング、旅行、レストランなど) * それを「シード」として、 例:映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。 * さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化 こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> : WebTailBench の “Tail” は、 : 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」 : (求人探し、不動産、価格比較、予約など)を意識している。 ===== 3.3 段階2:Task Solving(マルチエージェントで解く) ===== 生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> 主な役割: * Orchestrator エージェント - 全体のプランを立て、次に何をするか指示 * WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当 * UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる(例:ログイン情報、選好など) それぞれが、 : 観察(画面) → 思考メッセージ → 行動(ツールコール) を繰り返し、1 タスク分の “trajectory(軌跡)” を生成します。Fara-7B_An_efficient_agentic_sm… ===== 3.4 段階3:Trajectory Verification(自動審査) ===== 生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref> # Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか # Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング # Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認 基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。 ===== 3.5 学習データの規模 ===== 最終的に、 * 145,000 trajectory * 約 100 万ステップ からなるデータセットを構築し、これに加えて * UI 要素の位置当て(grounding) * 画像キャプション * VQA(視覚質問応答) といった補助タスク用データも入れて学習しています。Microsoft<ref>{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}</ref>
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)