Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/69137a48-17f4-8006-8777-d87a321743fc
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
==== - 拡張性の設計 既存ASRが固定言語集合に縛られがちな課題に対し、数ショットの「文脈例(in-context)」をプロンプトに与えるだけで、新規言語にゼロショット適応(追加学習不要)。579905087_1167348861447760_7696… ==== * モデル構成 - SSLエンコーダ:wav2vec 2.0 を最大7Bまでスケール(0.3B/1B/3B/7B)。4.3M時間・1600+言語の無ラベル音声で事前学習。 - ASRの2系統:①CTC(ベーシック用途)、②LLM-ASR(エンコーダ+12層/約1.2BのTransformerデコーダ)で高精度。 - 言語コード条件付け(言語+スクリプトID)で誤同定や多脚本言語の曖昧性を低減。579905087_1167348861447760_7696… * ゼロショットASR 同一言語のN個の音声-テキスト例をプロンプトに前置し、未学習言語にも一般化。SONARによる埋め込みkNNで、文脈例の自動選択を行うと精度が向上。579905087_1167348861447760_7696… * データ規模と作り方 - 有ラベル(AllASR):公開・パートナー・委託の統合。代表統計の一例として、表では合計約120,710時間/1,690言語(学習分)を提示。 - 委託コーパス:Omnilingual ASR Corpus(約3,350時間/348言語)。10人×各1時間を目標に、自然発話を多様トピックで収録、タグ付き転記と厳密QA。 - 無ラベル:約3.84M時間/1,239言語+言語未特定46万時間でSSL学習。 いずれも長尾言語カバレッジを最優先。579905087_1167348861447760_7696… * 評価と比較 Whisper v3、Google USM、Meta MMS との比較で、低資源バケットや未学習言語で優位。雑音耐性やドメイン外一般化も大規模混合学習で向上。'''S2TT(音声→テキスト翻訳)'''も、簡易なLIDトークン追加のみで強力な結果を報告。579905087_1167348861447760_7696… * 倫理と社会的配慮 地域コミュニティとの協働・報酬・主権性を重視し、オープンソース化でローカル適応の障壁を下げる設計思想。長尾言語の不在は中立ではなく格差拡大という立場から、実装と運用指針を詳細化。579905087_1167348861447760_7696…
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)