<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://freemwiki.com/index.php?action=history&amp;feed=atom&amp;title=Openai%2F6924c941-3e3c-8006-945a-8a314a773d48</id>
	<title>Openai/6924c941-3e3c-8006-945a-8a314a773d48 - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://freemwiki.com/index.php?action=history&amp;feed=atom&amp;title=Openai%2F6924c941-3e3c-8006-945a-8a314a773d48"/>
	<link rel="alternate" type="text/html" href="https://freemwiki.com/index.php?title=Openai/6924c941-3e3c-8006-945a-8a314a773d48&amp;action=history"/>
	<updated>2026-05-28T22:39:35Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.43.3</generator>
	<entry>
		<id>https://freemwiki.com/index.php?title=Openai/6924c941-3e3c-8006-945a-8a314a773d48&amp;diff=593687&amp;oldid=prev</id>
		<title>Lukegao: by freem.ai...</title>
		<link rel="alternate" type="text/html" href="https://freemwiki.com/index.php?title=Openai/6924c941-3e3c-8006-945a-8a314a773d48&amp;diff=593687&amp;oldid=prev"/>
		<updated>2025-11-26T05:58:24Z</updated>

		<summary type="html">&lt;p&gt;by freem.ai...&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&lt;br /&gt;
{{DISPLAYTITLE:Fara-7B: An Efficient Agentic Model for Computer Use}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;This conversation was exported from ChatGPT&amp;#039;&amp;#039;&amp;lt;ref&amp;gt;{{cite web|title=Fara-7B: An Efficient Agentic Model for Computer Use|url=https://chatgpt.com/share/6924c941-3e3c-8006-945a-8a314a773d48|publisher=ChatGPT|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== gpt-5-1 ==&lt;br /&gt;
=== User: Fara-7B: An Efficient Agentic Model for Computer Use ===&lt;br /&gt;
Fara-7B: An Efficient Agentic Model for Computer Use&lt;br /&gt;
Published November 24, 2025&lt;br /&gt;
https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/&lt;br /&gt;
概要を説明してください。&lt;br /&gt;
&lt;br /&gt;
=== Assistant: 以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。 ===&lt;br /&gt;
以下は、Microsoft Research Blog「Fara-7B: An Efficient Agentic Model for Computer Use」の概要です。&lt;br /&gt;
（内容はアップロードされた全文を基にまとめています）Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
=== Fara-7B は、Microsoft が公開した 7Bパラメータの小型・オープンウェイト「コンピュータ操作エージェント（CUA）」モデル。 ===&lt;br /&gt;
Webページを視覚的に認識し、クリック・スクロール・タイピングなどを行って実際にPCを操作できる点が特徴。&lt;br /&gt;
&lt;br /&gt;
==== - 7B規模ながら、同サイズ帯でSOTA性能 ====&lt;br /&gt;
* 大規模モデルの「複数モデル連携型エージェント」を1モデルに蒸留した構造&lt;br /&gt;
* オンデバイス実行が可能で、 - 低レイテンシ - プライバシー向上（データが外に出ない） を実現。&lt;br /&gt;
&lt;br /&gt;
Fara-7B は Qwen2.5-VL-7B をベースとし、128kコンテキストに対応。&lt;br /&gt;
&lt;br /&gt;
==== - スクリーンショットのみを入力 アクセシビリティツリーなどの構造化データを使わず、「人間と同じように画面を見て判断」する。 ====&lt;br /&gt;
* 出力は 1. reasoning（思考） 2. Playwright などのツールコール（click(x,y), type() など）&lt;br /&gt;
* マクロ操作（web_search、visit_url）にも対応。&lt;br /&gt;
&lt;br /&gt;
==== 研究用途ではなく、実際のWebタスクに使える。 ====&lt;br /&gt;
例：&lt;br /&gt;
* フォーム入力&lt;br /&gt;
* 情報検索&lt;br /&gt;
* 旅行やレストラン予約&lt;br /&gt;
* ショッピング&lt;br /&gt;
* アカウント管理&lt;br /&gt;
* GitHubや地図検索との連携&lt;br /&gt;
&lt;br /&gt;
Magentic-UI と統合されており、デモ動画も提供されている。&lt;br /&gt;
&lt;br /&gt;
==== CUAデータの不足を解消するため、Microsoft が構築した新しい合成データパイプラインを使用。 ====&lt;br /&gt;
&lt;br /&gt;
===== - 多数の公開URLをカテゴリ別に収集 =====&lt;br /&gt;
* 「映画チケットを予約」「商品比較」など現実的タスクを大量生成&lt;br /&gt;
* これをベースに新ベンチマーク WebTailBench を構築。&lt;br /&gt;
&lt;br /&gt;
===== - Magentic-One の Orchestrator / WebSurfer / UserSimulator を使用 =====&lt;br /&gt;
* 完成した“解法の軌跡（trajectory）”を記録。&lt;br /&gt;
&lt;br /&gt;
===== - Alignment Verifier =====&lt;br /&gt;
* Rubric Verifier&lt;br /&gt;
* Multimodal Verifier → 成功率の低い軌跡は破棄。&lt;br /&gt;
&lt;br /&gt;
最終的に 145,000 trajectory（100万ステップ）を学習に使用。&lt;br /&gt;
&lt;br /&gt;
==== 主な比較： ====&lt;br /&gt;
&lt;br /&gt;
|     |     |     |     |     |&lt;br /&gt;
| --- | --- | --- | --- | --- |&lt;br /&gt;
|     |     |     |     |     |&lt;br /&gt;
|     |     |     |     |     |&lt;br /&gt;
|     |     |     |     |     |&lt;br /&gt;
|     |     |     |     |     |&lt;br /&gt;
&lt;br /&gt;
→ 小型ながら 大型モデルのGPT-4oエージェントを多数の領域で上回る。&lt;br /&gt;
&lt;br /&gt;
コスト効率でも、競合の7Bエージェントが平均41ステップ必要なところ、Fara-7Bは 16ステップ と効率的。&lt;br /&gt;
&lt;br /&gt;
==== PC操作エージェントの特性上、安全設計を強化。 ====&lt;br /&gt;
* Sandbox環境での実行推奨&lt;br /&gt;
* 全アクションをログ化し、ユーザーが監視・中断できる&lt;br /&gt;
* Microsoft Responsible AI Policy に基づく拒否学習&lt;br /&gt;
* 82% の拒否率（WebTailBench-Refusals）&lt;br /&gt;
* 「Critical Points（個人情報入力・送信前など）」で必ず停止して確認を求める強制ルール&lt;br /&gt;
&lt;br /&gt;
==== - Microsoft Foundry ====&lt;br /&gt;
* Hugging Face（MITライセンス）&lt;br /&gt;
* Copilot+ PC 向けに NPU 最適化版も提供予定&lt;br /&gt;
* VSCode AI Toolkit から導入可能&lt;br /&gt;
* Magentic-UI 実装も公開&lt;br /&gt;
&lt;br /&gt;
=== Fara-7Bは、 ===&lt;br /&gt;
* 小型オープンウェイト&lt;br /&gt;
* オンデバイス実行可能&lt;br /&gt;
* 実際にPCを自動操作できるエージェントモデル&lt;br /&gt;
* 強力な性能と安全設計 を兼ね備え、CUA（Computer Use Agent）の新しい基準を提示した実験的モデル。&lt;br /&gt;
&lt;br /&gt;
特に「7Bでここまでできるのか」という点が大きな意義で、&lt;br /&gt;
今後の個人端末で動くエージェントコンピューティングの未来に直結するリリース。&lt;br /&gt;
&lt;br /&gt;
== gpt-5-1-thinking ==&lt;br /&gt;
=== User: 詳細に解説してください。 ===&lt;br /&gt;
詳細に解説してください。&lt;br /&gt;
&lt;br /&gt;
=== Assistant: では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7BAnefficientagenticsm… ===&lt;br /&gt;
では、ブログ記事の内容を、背景や狙いも含めてもう少し「中身が見える」形で整理していきます。Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
 Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== 1. Fara-7B の位置づけ：小型 SLM × コンピュータ操作エージェント ====&lt;br /&gt;
* Microsoft は 2024 年に Phi 系 SLM や Phi Silica（Copilot+ PC 向けオンデバイス SLM） を出して、「小型だけど賢いモデル路線」を押し出してきた。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Fara-7B はその延長線上で、 - “コンピュータ操作（Computer Use）専用にチューニングした 7B のエージェントモデル” - しかも MIT ライセンスのオープンウェイト という位置づけ。&lt;br /&gt;
&lt;br /&gt;
ここでいう Computer Use Agent (CUA) は、&lt;br /&gt;
「テキストで答えを書く」のではなく、実際にブラウザ上でクリック・スクロール・入力してタスクを完遂するエージェント のこと。Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
Fara-7B の狙いはざっくり言うと：&lt;br /&gt;
* 7B クラスで SOTA の Web エージェント性能&lt;br /&gt;
* しかも オンデバイスで動かせる軽さ（レイテンシ低＆プライバシー高）&lt;br /&gt;
* マルチモデル連携の複雑なシステムを 1 モデルに蒸留して、デプロイをシンプルにするFara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
という、「小さくてよく動くコンピュータ用 LLM」を見せる実験的リリースです。&lt;br /&gt;
&lt;br /&gt;
==== 2. どう動くのか：人間と同じ「画面ベース」の observe–think–act ====&lt;br /&gt;
&lt;br /&gt;
===== 2.1 入力：スクリーンショットだけを見る =====&lt;br /&gt;
&lt;br /&gt;
Fara-7B の特徴は、アクセシビリティツリーや DOM 解析に頼らず、ブラウザのスクリーンショットだけを見て行動を決めること。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* 入力コンテキスト： - すべてのユーザー指示 - これまでの行動履歴 - 最新 3 枚のブラウザウィンドウのスクリーンショットMicrosoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
つまり「人間が画面を見て、『次どこクリックしよう？』と考える」のに近いスタイル。&lt;br /&gt;
&lt;br /&gt;
===== 2.2 出力：思考テキスト＋ツールコール =====&lt;br /&gt;
&lt;br /&gt;
各ステップで、Fara-7B は&lt;br /&gt;
# “thinking” メッセージ - 内部推論（次の行動をどう決めたかのテキスト）&lt;br /&gt;
# ツールコール - Playwright の標準操作：click(x, y)、type() など - マクロ操作：web_search()、visit_url() などMicrosoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
という「観察 → 思考 → 行動（observe–think–act）」のパターンで動きます。Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
===== 2.3 ベースモデルとコンテキスト =====&lt;br /&gt;
* ベースは Qwen2.5-VL-7B（マルチモーダル・128k コンテキスト対応）。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* 7B という小ささながら、長い履歴と複数スクリーンショットを同時に扱える。&lt;br /&gt;
&lt;br /&gt;
これを 単なるチャットモデルではなく、「ツール実行主体」として finetune したものが Fara-7B です。&lt;br /&gt;
&lt;br /&gt;
==== 3. データ生成パイプライン：マルチエージェントで作る合成「操作ログ」 ====&lt;br /&gt;
&lt;br /&gt;
===== 3.1 なぜ合成データが必要か =====&lt;br /&gt;
&lt;br /&gt;
CUA の学習用データは、&lt;br /&gt;
* 1 タスクが数十ステップに及ぶ&lt;br /&gt;
* 各ステップごとに「どこを見てどう行動したか」をラベル付け&lt;br /&gt;
&lt;br /&gt;
…という超工数案件で、人手収集はほぼ無理。そこで Microsoft は 人手ラベル無しでスケールする合成データパイプラインを作った、というのがこの論文の大ネタです。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===== 3.2 段階1：Task Proposal（タスク生成） =====&lt;br /&gt;
&lt;br /&gt;
Magentic-One フレームワークの上で、以下のようにタスクを作ります。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* 公開 Web をクロールし、URL をカテゴリ付け（ショッピング、旅行、レストランなど）&lt;br /&gt;
* それを「シード」として、 例：映画サイトの URL → 「NYC の AMC Union Square で Downton Abbey Grand Finale のチケットを 2 枚取れ」 のような、実用感のあるタスクを生成。&lt;br /&gt;
* さらに、ランダムサンプリングした URL について、 - まず汎用プロンプトでタスク案を作る - LLM エージェントがサイトを探索しながらタスク内容を徐々に具体化&lt;br /&gt;
&lt;br /&gt;
こうして得られたタスクの一部は、新ベンチマーク “WebTailBench” のテストセットとしても公開されます。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
: WebTailBench の “Tail” は、&lt;br /&gt;
: 「既存ベンチではあまりカバーされていない、現実的だけどニッチなタスク群」&lt;br /&gt;
: （求人探し、不動産、価格比較、予約など）を意識している。&lt;br /&gt;
&lt;br /&gt;
===== 3.3 段階2：Task Solving（マルチエージェントで解く） =====&lt;br /&gt;
&lt;br /&gt;
生成したタスクは、Magentic-One ベースのマルチエージェントシステムで解かれます。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
主な役割：&lt;br /&gt;
* Orchestrator エージェント - 全体のプランを立て、次に何をするか指示&lt;br /&gt;
* WebSurfer エージェント - ブラウザを操作し、実際にクリック・スクロール・入力を行う担当&lt;br /&gt;
* UserSimulator エージェント - 途中でユーザー入力が必要なとき、その役を演じる（例：ログイン情報、選好など）&lt;br /&gt;
&lt;br /&gt;
それぞれが、&lt;br /&gt;
&lt;br /&gt;
: 観察（画面） → 思考メッセージ → 行動（ツールコール）&lt;br /&gt;
&lt;br /&gt;
を繰り返し、1 タスク分の “trajectory（軌跡）” を生成します。Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
===== 3.4 段階3：Trajectory Verification（自動審査） =====&lt;br /&gt;
&lt;br /&gt;
生成された軌跡はそのままでは学習に使わず、3 種類の「検証エージェント」でフィルタリングします。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
# Alignment Verifier - 実行された行動列が、タスクの意図に沿っているか&lt;br /&gt;
# Rubric Verifier - 「完了条件」を明文化したルーブリックに照らしてスコアリング&lt;br /&gt;
# Multimodal Verifier - スクリーンショットとエージェントの応答を見て、本当に完了しているか確認&lt;br /&gt;
&lt;br /&gt;
基準に満たない trajectory は破棄されるので、ノイズの多い自動生成データをかなり絞り込んだ “準ゴールド” データにしているイメージです。&lt;br /&gt;
&lt;br /&gt;
===== 3.5 学習データの規模 =====&lt;br /&gt;
&lt;br /&gt;
最終的に、&lt;br /&gt;
* 145,000 trajectory&lt;br /&gt;
* 約 100 万ステップ&lt;br /&gt;
&lt;br /&gt;
からなるデータセットを構築し、これに加えて&lt;br /&gt;
* UI 要素の位置当て（grounding）&lt;br /&gt;
* 画像キャプション&lt;br /&gt;
* VQA（視覚質問応答）&lt;br /&gt;
&lt;br /&gt;
といった補助タスク用データも入れて学習しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== 4. 学習方法：マルチエージェント → 7B モデルへの蒸留 ====&lt;br /&gt;
&lt;br /&gt;
===== 4.1 なぜ「1 モデル」にするのか =====&lt;br /&gt;
&lt;br /&gt;
マルチエージェントは強力ですが、実運用は大変：&lt;br /&gt;
* オーケストレーションロジックが複雑&lt;br /&gt;
* レイテンシ・コストもかさむ&lt;br /&gt;
&lt;br /&gt;
そこで著者らは、このマルチエージェントの振る舞いを “教師” として 1 つの 7B モデルに蒸留しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
: Fara-7B は、「多段の高機能エージェントシステムで得た実行ログを、&lt;br /&gt;
: 1 つの小型マルチモーダルモデルに圧縮した証明実験」&lt;br /&gt;
: という位置づけ。&lt;br /&gt;
&lt;br /&gt;
===== 4.2 observe–think–act の列として線形化 =====&lt;br /&gt;
&lt;br /&gt;
マルチエージェントで得た&lt;br /&gt;
&lt;br /&gt;
: 画面 → 思考 → 行動 → 画面 → 思考 → 行動 → …&lt;br /&gt;
&lt;br /&gt;
という流れを、「observe–think–act のシーケンス」としてトークン列に線形化し、通常の SFT ロスで学習しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* ここで重要なのは、 - RL ではなく、あくまで SFT のみで報告結果を出している点。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt; - つまり「合成データ＋SFT＋良いベースモデルだけでも、かなり強い CUA が作れる」という主張。&lt;br /&gt;
&lt;br /&gt;
RL on live web / sandbox 環境は「今後の方向性」として明示されています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== 5. ベンチマーク評価：7B なのに frontier 系と戦えてしまう ====&lt;br /&gt;
&lt;br /&gt;
===== 5.1 使っているベンチ =====&lt;br /&gt;
&lt;br /&gt;
ブログでは、以下の 4 つで評価しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
# WebVoyager - 一般的な Web ナビゲーション・タスク&lt;br /&gt;
# Online-Mind2Web - Mind2Web 系の、より構造化された Web タスク&lt;br /&gt;
# DeepShop - EC 系（ショッピング中心）&lt;br /&gt;
# WebTailBench（新規提案） - 映画やイベントのチケット予約 - レストラン予約 - 価格比較 - 求人応募、不動産探し - より複雑なマルチステップタスク　など&lt;br /&gt;
&lt;br /&gt;
評価は BrowserBase 上で統一されたブラウザ環境を使い、各ベンチマークの LLM-as-judge を用いた “Task Success Rate (%)” で行っています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===== 5.2 他モデルとの比較結果 =====&lt;br /&gt;
&lt;br /&gt;
表に出ている主な比較相手は：&lt;br /&gt;
* GPT-4o ベースの SoM Agent（Set-of-Marks エージェント）&lt;br /&gt;
* GLM-4.1V-9B-Thinking&lt;br /&gt;
* OpenAI computer-use-preview&lt;br /&gt;
* UI-TARS-1.5-7B（同じく Qwen2.5-VL-7B ベース）&lt;br /&gt;
&lt;br /&gt;
結果の一部はこうです（% = 成功率）：Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
| モデル                         | WebVoyager | Online-Mind2Web | DeepShop | WebTailBench |&lt;br /&gt;
| --------------------------- | ---------- | --------------- | -------- | ------------ |&lt;br /&gt;
| SoM Agent (GPT-4o)          | 65.1       | 34.6            | 16.0     | 30.0         |&lt;br /&gt;
| GLM-4.1V-9B-Thinking        | 66.8       | 33.9            | 32.0     | 22.4         |&lt;br /&gt;
| OpenAI computer-use-preview | 70.9       | 42.9            | 24.7     | 25.7         |&lt;br /&gt;
| UI-TARS-1.5-7B              | 66.4       | 31.3            | 11.6     | 19.5         |&lt;br /&gt;
| Fara-7B                     | 73.5       | 34.1            | 26.2     | 38.4         |&lt;br /&gt;
&lt;br /&gt;
ざっくりいうと：&lt;br /&gt;
* WebVoyager / WebTailBench では Fara-7B がトップ&lt;br /&gt;
* DeepShop でも OpenAI の computer-use-preview を上回る&lt;br /&gt;
* Online-Mind2Web では OpenAI モデルの方が上、というトレードオフ&lt;br /&gt;
&lt;br /&gt;
つまり&lt;br /&gt;
&lt;br /&gt;
: 「7B クラスのオンデバイス候補が、&lt;br /&gt;
: frontier クラスのクラウド CUA とかなり良い勝負をしている」&lt;br /&gt;
&lt;br /&gt;
というパフォーマンスが示されています。&lt;br /&gt;
&lt;br /&gt;
===== 5.3 コスト vs 精度：新しいパレートフロンティア =====&lt;br /&gt;
&lt;br /&gt;
Figure 1 では、WebVoyager について&lt;br /&gt;
* 各モデルに 最大 3 回のリトライ（pass@K） を認めた上での成功率&lt;br /&gt;
* x 軸に「トークン課金コスト」を置いたグラフ&lt;br /&gt;
&lt;br /&gt;
を出していて、Fara-7B が「高精度かつ低コスト」という新しいパレートフロンティア上にいることを強調しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
同じ Qwen2.5-VL-7B ベースの UI-TARS-1.5-7B と比較すると：&lt;br /&gt;
* 推論単価は同じ（openrouter の最安値で 1M トークンあたり $0.2）Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* しかし - UI-TARS-1.5-7B：平均 約 41 ステップ - Fara-7B：平均 約 16 ステップ&lt;br /&gt;
&lt;br /&gt;
でタスク完了に至る、とされています。つまり 「同じエンジンだが、Fara のほうが運転がうまい」 という感じ。&lt;br /&gt;
&lt;br /&gt;
===== 5.4 BrowserBase による独立評価 =====&lt;br /&gt;
&lt;br /&gt;
さらに BrowserBase 側で&lt;br /&gt;
* WebVoyager を人間アノテータ付きで評価&lt;br /&gt;
* Fara-7B が 62% 成功率&lt;br /&gt;
&lt;br /&gt;
という結果も出しています（ただしリトライ戦略が標準スコアと異なるため、他スコアと単純比較は NG と注意書きあり）。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== 6. 安全設計：スクリーンショット・サンドボックス・Critical Point ====&lt;br /&gt;
&lt;br /&gt;
Fara-7B は 実際にブラウザを動かす ので、チャットボットとは別種のリスクがあります。ブログではかなりの紙幅を割いて、安全設計について説明しています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===== 6.1 取り扱う情報とプライバシー =====&lt;br /&gt;
* 入力として扱うのは - ブラウザのスクリーンショット - ユーザーのタスク指示 - 実行中セッションの行動履歴&lt;br /&gt;
* それ以外（アクセシビリティツリーや外部の補助データ）は読み込まないMicrosoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
→ &amp;#039;&amp;#039;&amp;#039;「人間の目に見えている範囲だけを使う」&amp;#039;&amp;#039;&amp;#039;ことで、データアクセス範囲を明示的に限定している。&lt;br /&gt;
&lt;br /&gt;
さらに、&lt;br /&gt;
* すべての行動はログ化され、ユーザーが監査可能&lt;br /&gt;
* サンドボックス環境での実行を前提とし、いつでも介入・停止できる設計Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===== 6.2 有害タスクへの拒否学習と評価 =====&lt;br /&gt;
* 公開の安全データ＋ Microsoft 内部で作成した「拒否すべきタスク」を混ぜて学習&lt;br /&gt;
* WebTailBench-Refusals という 111 件のレッドチーミングタスクで評価し、 82% の拒否率 を確認したと書かれています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Microsoft の社内レッドチームでも、 - 有害コンテンツ - jailbreak 試行 - 不 grounded 応答 - prompt injection などに対する耐性を重点的にテスト。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===== 6.3 Critical Point の強制ストップ =====&lt;br /&gt;
&lt;br /&gt;
面白いのはここで、「Critical Point」という概念を OpenAI Operator のシステムカードを引用しつつ採用している点です。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Critical Point とは： - 個人情報の入力 - 送金・予約確定・メール送信などの不可逆な操作 を実行する前に、必ずユーザーの明示的な同意が要る局面。&lt;br /&gt;
* Fara-7B の学習データはすべて、 - Critical Point で一度立ち止まり、 - 「ここから先はあなたの許可がないと進めません」とユーザーに確認 するようにラベル付けされている。Fara-7B_An_efficient_agentic_sm…&lt;br /&gt;
&lt;br /&gt;
→ これにより、勝手に購入・勝手に送信みたいな事故を抑えることを目指しています。&lt;br /&gt;
&lt;br /&gt;
==== 7. 提供形態とエコシステム ====&lt;br /&gt;
* MIT ライセンスのオープンウェイトで、 - Microsoft Foundry（Azure AI Studio 側） - Hugging Face から入手可能。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* さらに、 - Copilot+ PC 向けに量子化・シリコン最適化済み版も配布予定 - VS Code の AI Toolkit 経由で、NPU を使ったオンデバイス実行ができるようにする。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
* 研究用 UI である Magentic-UI にも組み込まれており、 - ショッピング - GitHub issues のサマリ - 地図ツール＋検索の組み合わせ などのデモが公開されている。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Microsoft としては、&lt;br /&gt;
&lt;br /&gt;
: 「コンピュータ操作エージェントを試したい人が、&lt;br /&gt;
: とりあえずオンデバイスで安全に遊べる“実験キット”」&lt;br /&gt;
&lt;br /&gt;
として Fara-7B ＋ Magentic-UI ＋ AI Toolkit の組を差し出している感じです。&lt;br /&gt;
&lt;br /&gt;
==== 8. 限界と今後の方向性 ====&lt;br /&gt;
&lt;br /&gt;
ブログでは、 Fara-7B が&lt;br /&gt;
* 複雑なタスクでの精度低下&lt;br /&gt;
* 指示の取り違え&lt;br /&gt;
* 幻覚（hallucination）&lt;br /&gt;
&lt;br /&gt;
といった LLM 一般の弱点をまだ共有していることを素直に認めています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
そのうえで、今後の方向性として：&lt;br /&gt;
# より強力なマルチモーダル基盤モデルへの置き換え&lt;br /&gt;
# ライブ／サンドボックス環境での RL（強化学習） による性能向上&lt;br /&gt;
# BrowserBase との協力による WebTailBench の人間評価環境の整備Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
を挙げ、「これはあくまで最初の一歩であり、コミュニティからのフィードバックや実験を通じて次を作る」と締めています。Microsoft&amp;lt;ref&amp;gt;{{cite web|title=Microsoft|url=https://www.microsoft.com/en-us/research/blog/fara-7b-an-efficient-agentic-model-for-computer-use/|publisher=microsoft.com|access-date=2025-11-26}}&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== まとめ：Fara-7B が示しているもの ====&lt;br /&gt;
&lt;br /&gt;
技術的なポイントを一言でまとめるなら、&lt;br /&gt;
&lt;br /&gt;
: 「多エージェント＋合成データで学習した行動ログを、&lt;br /&gt;
: 7B クラスのマルチモーダルモデルに蒸留すると、&lt;br /&gt;
: frontier 級 CUA に迫る性能をオンデバイスサイズで実現できる」&lt;br /&gt;
&lt;br /&gt;
という実証だと言えます。&lt;br /&gt;
&lt;br /&gt;
同時に、安全面では&lt;br /&gt;
* スクリーンショット限定の情報取り扱い&lt;br /&gt;
* サンドボックス前提&lt;br /&gt;
* ログの完全記録&lt;br /&gt;
* 高拒否率＋ Critical Point での停止&lt;br /&gt;
&lt;br /&gt;
といった設計を組み込んでおり、「コンピュータ操作エージェントをどう安全に設計するか」の一つの回答例にもなっています。&lt;br /&gt;
&lt;br /&gt;
== References ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[Category:ChatGPT Shares]]&lt;br /&gt;
[[Category:openai]]&lt;/div&gt;</summary>
		<author><name>Lukegao</name></author>
	</entry>
</feed>