Editing Openai/69137a48-17f4-8006-8777-d87a321743fc (section)

=== Omnilingual ASR は、1600+言語に対応し、未学習の言語でも数例の音声-テキスト対でゼロショット転写できる、拡張性重視の大規模多言語ASRの公開プロジェクトです。300M〜7Bのファミリーで提供（軽量端末〜高精度まで）。学習データは公開コーパスに加え、コミュニティ主導の収録と'''委託収集（Omnilingual ASR Corpus）'''を含み、初対応が500+言語。Whisper/USM/MMSなど既存SOTAと比べ、低資源条件で大幅改善を報告。コード・モデル・データはオープンソースとして公開。579905087_1167348861447760_7696… ===

==== - 拡張性の設計 既存ASRが固定言語集合に縛られがちな課題に対し、数ショットの「文脈例（in-context）」をプロンプトに与えるだけで、新規言語にゼロショット適応（追加学習不要）。579905087_1167348861447760_7696… ====
* モデル構成 - SSLエンコーダ：wav2vec 2.0 を最大7Bまでスケール（0.3B/1B/3B/7B）。4.3M時間・1600+言語の無ラベル音声で事前学習。 - ASRの2系統：①CTC（ベーシック用途）、②LLM-ASR（エンコーダ＋12層/約1.2BのTransformerデコーダ）で高精度。 - 言語コード条件付け（言語＋スクリプトID）で誤同定や多脚本言語の曖昧性を低減。579905087_1167348861447760_7696…
* ゼロショットASR 同一言語のN個の音声-テキスト例をプロンプトに前置し、未学習言語にも一般化。SONARによる埋め込みkNNで、文脈例の自動選択を行うと精度が向上。579905087_1167348861447760_7696…
* データ規模と作り方 - 有ラベル（AllASR）：公開・パートナー・委託の統合。代表統計の一例として、表では合計約120,710時間／1,690言語（学習分）を提示。 - 委託コーパス：Omnilingual ASR Corpus（約3,350時間／348言語）。10人×各1時間を目標に、自然発話を多様トピックで収録、タグ付き転記と厳密QA。 - 無ラベル：約3.84M時間／1,239言語＋言語未特定46万時間でSSL学習。 いずれも長尾言語カバレッジを最優先。579905087_1167348861447760_7696…
* 評価と比較 Whisper v3、Google USM、Meta MMS との比較で、低資源バケットや未学習言語で優位。雑音耐性やドメイン外一般化も大規模混合学習で向上。'''S2TT（音声→テキスト翻訳）'''も、簡易なLIDトークン追加のみで強力な結果を報告。579905087_1167348861447760_7696…
* 倫理と社会的配慮 地域コミュニティとの協働・報酬・主権性を重視し、オープンソース化でローカル適応の障壁を下げる設計思想。長尾言語の不在は中立ではなく格差拡大という立場から、実装と運用指針を詳細化。579905087_1167348861447760_7696…

==== - コード：https://github.com/facebookresearch/omnilingual-asr ====
* 公式ブログ：https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition （モデル群：SSLエンコーダ（0.3B/1B/3B/7B）、CTC ASR、LLM-ASR、ゼロショットASR、および'''多言語ASRデータセット（平均10h/言語、300+言語）'''を公開）579905087_1167348861447760_7696…

==== Omnilingual ASR team（FAIR at Meta）ほか。Core contributors：Gil Keren, Artyom Kozhevnikov, Yen Meng, Christophe Ropers, Matthew Setzler, Skyler Wang（McGill 社会学††）、Ife Adebara（Alberta 大††）、… / Technical leadership：Yu-An Chung, Jean Maillard, Rashel Moritz, Alexandre Mourachko, Mary Williamson, Shireen Yates ほか。 ====
連絡先：Yu-An Chung（andyyuan@meta.com）、Jean Maillard（jeanm@meta.com）
所属表記：FAIR at Meta、††は一部共著者の大学所属（McGill、Alberta、Brown）。579905087_1167348861447760_7696…

※本文・図表・統計・比較・公開物の記述は、上記公開版（Date: Nov 10, 2025）に基づく要約です。579905087_1167348861447760_7696…