Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/69137a48-17f4-8006-8777-d87a321743fc
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== Omnilingual ASR は、1600+言語に対応し、未学習の言語でも数例の音声-テキスト対でゼロショット転写できる、拡張性重視の大規模多言語ASRの公開プロジェクトです。300M〜7Bのファミリーで提供(軽量端末〜高精度まで)。学習データは公開コーパスに加え、コミュニティ主導の収録と'''委託収集(Omnilingual ASR Corpus)'''を含み、初対応が500+言語。Whisper/USM/MMSなど既存SOTAと比べ、低資源条件で大幅改善を報告。コード・モデル・データはオープンソースとして公開。579905087_1167348861447760_7696… === ==== - 拡張性の設計 既存ASRが固定言語集合に縛られがちな課題に対し、数ショットの「文脈例(in-context)」をプロンプトに与えるだけで、新規言語にゼロショット適応(追加学習不要)。579905087_1167348861447760_7696… ==== * モデル構成 - SSLエンコーダ:wav2vec 2.0 を最大7Bまでスケール(0.3B/1B/3B/7B)。4.3M時間・1600+言語の無ラベル音声で事前学習。 - ASRの2系統:①CTC(ベーシック用途)、②LLM-ASR(エンコーダ+12層/約1.2BのTransformerデコーダ)で高精度。 - 言語コード条件付け(言語+スクリプトID)で誤同定や多脚本言語の曖昧性を低減。579905087_1167348861447760_7696… * ゼロショットASR 同一言語のN個の音声-テキスト例をプロンプトに前置し、未学習言語にも一般化。SONARによる埋め込みkNNで、文脈例の自動選択を行うと精度が向上。579905087_1167348861447760_7696… * データ規模と作り方 - 有ラベル(AllASR):公開・パートナー・委託の統合。代表統計の一例として、表では合計約120,710時間/1,690言語(学習分)を提示。 - 委託コーパス:Omnilingual ASR Corpus(約3,350時間/348言語)。10人×各1時間を目標に、自然発話を多様トピックで収録、タグ付き転記と厳密QA。 - 無ラベル:約3.84M時間/1,239言語+言語未特定46万時間でSSL学習。 いずれも長尾言語カバレッジを最優先。579905087_1167348861447760_7696… * 評価と比較 Whisper v3、Google USM、Meta MMS との比較で、低資源バケットや未学習言語で優位。雑音耐性やドメイン外一般化も大規模混合学習で向上。'''S2TT(音声→テキスト翻訳)'''も、簡易なLIDトークン追加のみで強力な結果を報告。579905087_1167348861447760_7696… * 倫理と社会的配慮 地域コミュニティとの協働・報酬・主権性を重視し、オープンソース化でローカル適応の障壁を下げる設計思想。長尾言語の不在は中立ではなく格差拡大という立場から、実装と運用指針を詳細化。579905087_1167348861447760_7696… ==== - コード:https://github.com/facebookresearch/omnilingual-asr ==== * 公式ブログ:https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition (モデル群:SSLエンコーダ(0.3B/1B/3B/7B)、CTC ASR、LLM-ASR、ゼロショットASR、および'''多言語ASRデータセット(平均10h/言語、300+言語)'''を公開)579905087_1167348861447760_7696… ==== Omnilingual ASR team(FAIR at Meta)ほか。Core contributors:Gil Keren, Artyom Kozhevnikov, Yen Meng, Christophe Ropers, Matthew Setzler, Skyler Wang(McGill 社会学††)、Ife Adebara(Alberta 大††)、… / Technical leadership:Yu-An Chung, Jean Maillard, Rashel Moritz, Alexandre Mourachko, Mary Williamson, Shireen Yates ほか。 ==== 連絡先:Yu-An Chung(andyyuan@meta.com)、Jean Maillard(jeanm@meta.com) 所属表記:FAIR at Meta、††は一部共著者の大学所属(McGill、Alberta、Brown)。579905087_1167348861447760_7696… ※本文・図表・統計・比較・公開物の記述は、上記公開版(Date: Nov 10, 2025)に基づく要約です。579905087_1167348861447760_7696…
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)