Google 養不起的叛逆鬼才:Jonathan Ross
故事要從 Jonathan Ross 說起。這傢伙在 Google 當軟體工程師時,利用著名的「20% 自由時間」,搞出了一個叫做 TPU(張量處理單元) 的東西。沒錯,竟然由軟體工程師搞出了硬體,現在靠他支撐 Google 龐大 AI 帝國的晶片,最初只是他的 Side Project。
完成了 TPU, 但他在 2016 年,看到了 Google 內部的侷限。雖然 TPU 很強,但它是為了 Google 自己的業務(搜尋、廣告)設計的。Jonathan 發現了一個當時沒人注意到的「硬傷」:現有的硬體架構(包括 Nvidia GPU),根本不適合未來的 AI 推論(Inference)。
他決定離職創立 Groq。當時他說了一句很產品經理思維的話:「待在 Google 看著一個改變世界的機會死掉,這風險比我出來創業還大。」
第一個硬核觀點:GPU 的原罪與 LPU 的逆襲
為什麼 Jonathan 敢挑戰 Nvidia?因為他看準了 GPU 的架構弱點。
🔮 GPU 的設計邏輯: GPU 是為了圖形和大量並行運算設計的。它的強項是「頻寬大、吞吐量高」,適合一次載一大卡車的貨(Batch Processing)。
🔮 LLM 的運作邏輯: 大型語言模型生成文字是「序列式」的(Sequential),一個字接一個字吐。這就像你要送快遞,GPU 是一台大卡車,每次起步、停車(存取記憶體)都很慢;而 LLM 推論需要的是一台法拉利。
於是 Groq 搞出了 LPU (Language Processing Unit),做了一個極端的架構決策:捨棄 HBM(高頻寬記憶體),全用 SRAM。
這導致了兩個結果:
🔮 神一般的速度: 資料不用在晶片內外跑來跑去,內部頻寬高達 80 TB/s(Nvidia H100 的外部頻寬只有 幾 TB/s)。
🔮 致命的容量限制: 這就是我們要講的第一個「坑」。
分析一:速度的代價是「記憶體稅」
網路上吹捧 Groq 每秒 500 tokens 的速度,但身為工程師,我們要看的是 TCO(總持有成本)。
Groq 的單晶片記憶體只有 230MB(你沒看錯,是 MB,不是 GB)。
🔮 算一筆帳: 要跑一個 Llama-3-70B 模型,你用 Nvidia H100 可能只需要 1-2 張卡(配上 80GB HBM)。
🔮 Groq 的代價: 但用 Groq,你可能需要串聯 500 多張晶片 才能把模型塞進去。
這就是 Groq 的硬傷:密度極低。這導致它的硬體成本極高,一般企業根本買不起這種機櫃。所以 Groq 只能做 Cloud API 生意,你很難看到它像 Nvidia 一樣賣卡給企業自建機房。
分析二:Jonathan 賭的不是 Chatbot,是「AI Agent」
如果你只是用 AI 來聊天,Groq 其實是「效能過剩」(Overkill)。人類閱讀速度沒那麼快,AI 秒回你是沒有邊際效益的。
那 Groq 到底在賭什麼?它賭的是未來的 Agentic Workflow(代理人工作流)。
未來的 AI 應用場景是:
🔮 你下一個指令。
🔮 主 AI 呼叫搜索 AI。
🔮 搜索 AI 找資料,丟給分析 AI。
🔮 分析 AI 寫 Code,丟給執行 AI 跑。
🔮 最後匯總回報給你。
這中間如果有 10 個步驟,用 GPU 每個步驟延遲 1 秒,你就要等 10 秒(體驗極差)。用 Groq,總共只要 1 秒。只有在「機器對機器」的高頻溝通場景下,Groq 的低延遲才有不可替代的價值。
分析三:軟體定義硬體(Software-Defined Hardware)
Groq 最核心的技術其實不是晶片,是 Compiler(編譯器)。
Nvidia 的 CUDA 之所以強,是因為它生態系大,但也因為它要處理很多硬體的複雜調度(Cache Miss, Memory contention),導致效能有時不可預測。
Groq 走的是 Deterministic(確定性) 路線。它的編譯器在程式跑之前,就已經算好每一個電子在什麼時間點會流到哪裡。這意味著它沒有 Cache(快取),不需要預測分支,執行效率極高。
但也帶來了風險:開發者被綁死在 Groq 的編譯器上。一旦模型架構發生大轉變(例如 Transformer 被淘汰),Groq 的編譯器能不能跟上?這是巨大的未知數。
結論:這不是取代,而是分工
Groq 不會幹掉 Nvidia,它們會走向兩個極端:
🔮 Nvidia (GPU): 繼續統治 Training(訓練) 和 高吞吐量(Throughput) 的批次處理市場。這是「運量」的王者。
🔮 Groq (LPU): 搶佔 Real-time Inference(即時推論) 和 AI Agent 市場。這是「速度」的刺客。
Jonathan Ross 的故事告訴我們,在矽谷,你不用贏過巨人的所有強項。
你只要找到巨人轉身最慢的那個弱點(延遲),然後把這一點做到極致,你就有了上桌談判的籌碼。


