Google 養不起的叛逆鬼才：Jonathan Ross

Dec 27, 2025

故事要從 Jonathan Ross 說起。這傢伙在 Google 當軟體工程師時，利用著名的「20% 自由時間」，搞出了一個叫做 TPU（張量處理單元）的東西。沒錯，竟然由軟體工程師搞出了硬體，現在靠他支撐 Google 龐大 AI 帝國的晶片，最初只是他的 Side Project。

完成了 TPU, 但他在 2016 年，看到了 Google 內部的侷限。雖然 TPU 很強，但它是為了 Google 自己的業務（搜尋、廣告）設計的。Jonathan 發現了一個當時沒人注意到的「硬傷」：現有的硬體架構（包括 Nvidia GPU），根本不適合未來的 AI 推論（Inference）。

他決定離職創立 Groq。當時他說了一句很產品經理思維的話：「待在 Google 看著一個改變世界的機會死掉，這風險比我出來創業還大。」

第一個硬核觀點：GPU 的原罪與 LPU 的逆襲

為什麼 Jonathan 敢挑戰 Nvidia？因為他看準了 GPU 的架構弱點。

🔮 GPU 的設計邏輯： GPU 是為了圖形和大量並行運算設計的。它的強項是「頻寬大、吞吐量高」，適合一次載一大卡車的貨（Batch Processing）。

🔮 LLM 的運作邏輯：大型語言模型生成文字是「序列式」的（Sequential），一個字接一個字吐。這就像你要送快遞，GPU 是一台大卡車，每次起步、停車（存取記憶體）都很慢；而 LLM 推論需要的是一台法拉利。

於是 Groq 搞出了 LPU (Language Processing Unit)，做了一個極端的架構決策：捨棄 HBM（高頻寬記憶體），全用 SRAM。

這導致了兩個結果：

🔮 神一般的速度：資料不用在晶片內外跑來跑去，內部頻寬高達 80 TB/s（Nvidia H100 的外部頻寬只有幾 TB/s）。

🔮 致命的容量限制：這就是我們要講的第一個「坑」。

分析一：速度的代價是「記憶體稅」

網路上吹捧 Groq 每秒 500 tokens 的速度，但身為工程師，我們要看的是 TCO（總持有成本）。

Groq 的單晶片記憶體只有 230MB（你沒看錯，是 MB，不是 GB）。

🔮 算一筆帳：要跑一個 Llama-3-70B 模型，你用 Nvidia H100 可能只需要 1-2 張卡（配上 80GB HBM）。

🔮 Groq 的代價：但用 Groq，你可能需要串聯 500 多張晶片才能把模型塞進去。

這就是 Groq 的硬傷：密度極低。這導致它的硬體成本極高，一般企業根本買不起這種機櫃。所以 Groq 只能做 Cloud API 生意，你很難看到它像 Nvidia 一樣賣卡給企業自建機房。

分析二：Jonathan 賭的不是 Chatbot，是「AI Agent」

如果你只是用 AI 來聊天，Groq 其實是「效能過剩」（Overkill）。人類閱讀速度沒那麼快，AI 秒回你是沒有邊際效益的。

那 Groq 到底在賭什麼？它賭的是未來的 Agentic Workflow（代理人工作流）。

未來的 AI 應用場景是：

🔮 你下一個指令。

🔮 主 AI 呼叫搜索 AI。

🔮 搜索 AI 找資料，丟給分析 AI。

🔮 分析 AI 寫 Code，丟給執行 AI 跑。

🔮 最後匯總回報給你。

這中間如果有 10 個步驟，用 GPU 每個步驟延遲 1 秒，你就要等 10 秒（體驗極差）。用 Groq，總共只要 1 秒。只有在「機器對機器」的高頻溝通場景下，Groq 的低延遲才有不可替代的價值。

分析三：軟體定義硬體（Software-Defined Hardware）

Groq 最核心的技術其實不是晶片，是 Compiler（編譯器）。

Nvidia 的 CUDA 之所以強，是因為它生態系大，但也因為它要處理很多硬體的複雜調度（Cache Miss, Memory contention），導致效能有時不可預測。

Groq 走的是 Deterministic（確定性）路線。它的編譯器在程式跑之前，就已經算好每一個電子在什麼時間點會流到哪裡。這意味著它沒有 Cache（快取），不需要預測分支，執行效率極高。

但也帶來了風險：開發者被綁死在 Groq 的編譯器上。一旦模型架構發生大轉變（例如 Transformer 被淘汰），Groq 的編譯器能不能跟上？這是巨大的未知數。

結論：這不是取代，而是分工

Groq 不會幹掉 Nvidia，它們會走向兩個極端：

🔮 Nvidia (GPU)：繼續統治 Training（訓練）和高吞吐量（Throughput）的批次處理市場。這是「運量」的王者。

🔮 Groq (LPU)：搶佔 Real-time Inference（即時推論）和 AI Agent 市場。這是「速度」的刺客。

Jonathan Ross 的故事告訴我們，在矽谷，你不用贏過巨人的所有強項。

你只要找到巨人轉身最慢的那個弱點（延遲），然後把這一點做到極致，你就有了上桌談判的籌碼。

AI MarkIncome

Discussion about this post

Ready for more?