Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
Openai/6925c674-3858-8009-852a-bd8fdd5679ae
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== Assistant: 關鍵有三個字:誰都買得到。 === 關鍵有三個字:誰都買得到。 這就是為什麼大家在聊「護城河」時,會一直講 CUDA,而不是 Google TPU——即使 TPU 在某些情況下「看起來更便宜」。 我分幾層講,盡量用貼近投資跟產業的角度來說: ==== 1. TPU 是「Google 內部 + 綁死在 GCP 的方案」 ==== TPU 本質比較像: : 一台只在 Google 自家機房出沒的專用機器, : 你只能透過「上 GCP / 用 Vertex AI」來間接使用。 也就是說: * 你不能像買 H100 一樣買一堆 TPU 回去自建機房。 * 多數公司要上 TPU 就等於: - 把 infra 綁死在 GCP - 或至少要建立一整套「專門跑在 GCP TPU 上」的 pipeline。 對很多大客戶來說,問題就來了: * 我原本用 AWS/Azure,難道為了 TPU 要整套搬家? * 我公司政策要 multi-cloud,TPU 是 Google 專有,那其它雲端怎麼辦? * 我未來想自己買機櫃做 on-premise,TPU 根本買不到。 → 所以 TPU 的「市場」天生就被限制在:願意 heavily 綁定 Google 生態的那一群人。 ==== 2. CUDA + NVIDIA 是「誰都買得到、哪裡都能跑」 ==== 反過來看 GPU + CUDA: * 你可以: - 在 AWS / Azure / GCP / OCI 租 NVIDIA GPU - 找代工廠拉一整排機櫃,自己插 H100 / B200 - 買一台工作站,裝一張 4090/5090 在公司裡做研究 * 同一套 CUDA / PyTorch / TensorRT 技術,可以: - 雲端用 - on-prem 用 - 多雲用 - 客戶 demo 用 這個「通吃所有場景」的能力,是 TPU 完全不具備的。 所以對市場來說,問題不是單純問: : 「TPU 跑一次 token 比 GPU 便宜多少?」 而是更現實地問: : 「多少錢可以讓全世界大多數開發者、公司、雲端都能用同一套平台?」 這一題目前是 NVIDIA + CUDA 贏,非常多。 ==== 3. 價格再便宜,沒生態就是「便宜的孤島」 ==== 你說「TPU 價差這麼多」,這句話其實有幾個坑: # 你看到的是 Google 對外報的雲端價目表 / 宣傳 cost-per-token - 那裡面有很多 Google 想要 highlight 的計價方式(例如包成整套服務)。 - 實際上企業做決策,不是只比「單位算力價錢」,還要看: - 遷移成本(改程式、改工具鏈) - 人才成本(會用的人多不多) - 被綁死單一供應商的風險(vendor lock-in) # 生態成本往往比硬體成本更大 - 你公司內部工程師、MLOps、Infra 工程師如果全部都熟 CUDA / GPU,但沒人熟 TPU: - 改成 TPU 代表你要重訓人、重新寫 code、重新建 CI/CD pipeline。 - 對大公司來說,這些人力時間成本,常常遠大於你算那一點「GPU vs TPU 的單價差」。 # TPU 工具鏈主要是 Google 口味(JAX / XLA / TensorFlow) - 但業界很多東西是 PyTorch-first,很多低階最佳化是 CUDA-first。 - 「我整家公司整個 stack 為了 TPU 改過去」這件事,很少人敢下這個決策。 → 便宜很好,但「便宜的東西,大家敢不敢 ALL-IN」是另一個問題。 ==== 4. 為什麼市場討論護城河時會一直講 CUDA? ==== 因為軟體生態 + 開發者心智佔領這兩件事,是可以「跨硬體世代繼續收稅」的。 NVIDIA 現在在做的是: * 不只是賣 GPU,而是賣整套: - CUDA + cuDNN + TensorRT - NVIDIA NIM / 推論服務 / AI Enterprise - 網路(InfiniBand / Spectrum-X) - library(各行各業 domain-specific 的 SDK) 這帶來幾件事: # 當別人做出「硬體相近」的卡時,軟體還是 NVIDIA 的強項 - 你要跑現有一堆 CUDA-based 的東西,換到別家公司卡上,通常要付出轉移成本。 - 這就像以前 x86 vs 其他 CPU;不是你晶片做出來就有人用。 # NVIDIA 可以從「每一台機器」身上多收一層軟體 / 服務錢 - 當硬體毛利被壓,軟體訂閱 / SDK / 平台費用就變成第二個護城河。 - 市場看到這一點,才會說 CUDA 生態是最核心的 valuation driver。 # CUDA 的勝利是「開發者心智」的勝利 - 大部分 AI 工程師一想到「加速某段 code」,第一反應是:用 CUDA / 用 NVIDIA 的 library。 - 這種「預設選擇」一旦形成,你要靠便宜硬體去撼動它,要花的不是錢,是時間 + 鐵血 BD + 生態補貼。 → 所以當大家在討論 NVIDIA 會不會掉下神壇時,會問的是:「CUDA 护城河會被打穿嗎?」而不是「TPU 單價便不便宜?」 ==== 5. 再把你的問題濃縮成一句話回答你 ==== : 「在價格差這麼大情況下,為什麼大家原因都集中在 CUDA 而不是 Google TPU?」 因為對「整個 AI 世界」來說,問題不是 「Google 能不能靠 TPU 做出 SOTA 模型?」 而是 「全世界 90% 以上的開發者、公司,要用什麼平台寫 code、佈署模型?」 * TPU 目前更像是: 👉「Google 自家 + 綁在 GCP 這一圈人的特選方案」 * CUDA + NVIDIA 更像是: 👉「全世界 AI 開發共同的底層基建」 市場在估值時,會看的是「共同基建」的護城河,而不是某一家公司內部的神兵利器。 如果你願意,我可以幫你整理一個小表格: * 一欄是「從企業 CIO / Infra 負責人角度」 * 一欄是「從投資人角度」 列出:在什麼情況下他們會偏向選 TPU、在什麼情況下還是會買 NVIDIA GPU,順便加一欄「對 NVDA 估值的影響方向」,讓你之後看新聞比較容易判斷「這個消息是情緒多還是實質多」。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)