才剛按下退訂按鈕，OpenAI 就來大招

GPT-5.4 實測

Mar 06, 2026

【工程師碎碎念】上個月初我才剛跟朋友抱怨完上一代模型寫 code 有多雷，信誓旦旦地把訂閱給停了，想說把這筆錢省下來當作我 SaaS 專案的伺服器費用。結果昨天看完新發表會，我默默摸摸鼻子，重新把信用卡號給填了回去。這次真的不是擠牙膏，他們是直接把整條牙膏給捏爆了。

在 ChatGPT 設定頁面按下「取消訂閱」那一刻，心裡是有點暗爽的。

你大概懂我的感受：GPT-5.3 codex 真的是讓人又愛又恨。說好聽一點是「還在發展中的過渡期產品」，說難聽一點，就是每個月花幾百塊台幣，請一個會一本正經八百寫出 bug、還死不認錯的數位實習生。

我本來想著，這幾百塊省下來，每個月可以多喝幾杯手沖精品豆，或當作我 SaaS 專案的伺服器費用，順便讓 OpenAI 知道我們這些老用戶也是有要求的。

結果呢？我連上個月的帳單都還沒繳清，OpenAI 就來了這齣：

GPT-5.4 橫空出世。

看完了他們的發佈會和技術文件，我默默喝了一口冷掉的咖啡，然後... 點開了綁定信用卡的頁面，再給你一次機會。哎，身為一個在業界打滾多年的工程師，我必須得承認：這次 OpenAI 不是在擠牙膏，他們是真的端出了一盤大菜。

如果你跟我一樣，對上一代模型感到心灰意冷，今天我們就來聊聊，為什麼這次 GPT-5.4 值得你再給它一次機會。

1. 它居然學會自己「點滑鼠」了？原生電腦控制時代來臨

這次最讓我這個工程師看傻眼的，就是原生電腦控制（Native Computer Use）。

以前我們如果要在網頁或軟體上搞自動化，那是個苦力活。你要寫爬蟲、要用 Selenium 還是 Puppeteer 去定位那些隱藏在 DOM tree 裡面的奇葩元素，只要網頁一改版，你的 code 就準備報錯。

但 GPT-5.4 的玩法完全不一樣。它是第一個能夠直接「看懂」螢幕截圖，然後自己發送滑鼠和鍵盤指令的通用模型。

💡 數據說話：在專門測試軟體操作的 OSWorld-Verified 跑分中，上一代 5.2 只有可憐的 47.3%，而這次 GPT-5.4 直接飆到 75.0%。最恐怖的是，人類的平均分數也才 72.4%。

這代表什麼？這代表在「看圖操作軟體」這件事上，這傢伙已經比你辦公室裡一半的同事還要俐落了。未來我們要寫 Agent 幫忙訂票、抓資料、甚至填系統表單，終於不用再刻那些脆弱的爬蟲程式碼了。

2. 金融圈跟 PM 們的肝，有救了

OpenAI 這次很明顯把目標瞄準了「真正在辦公室裡賣命」的白領階級。

如果你常需要搞財報、做投資模型或是整理超大張的 Excel 表格，GPT-5.4 這次的升級會讓你很有感。在他們針對初階投資銀行分析師設計的內部測試中，5.4 的勝率高達 87.5%（5.2 只有 68.4%）。

更重要的是，大家都痛恨的「AI 幻覺（一本正經講幹話）」終於減少了：

🦄 單一事實錯誤率下降了 33%。
🦄 整體回覆包含錯誤的機率下降了 18%。

對於那些用 AI 寫合約草稿或查數據的專業人士來說，這 18% 可能就是你免於被老闆調職去複印文件的保命符。

3. 工程師的福音：終於整合 Codex，還有神級的「省錢」機制

回到我們工程師的主場。這次 GPT-5.4 直接取代了原本的 Codex 變成主力寫 code 模型。

不僅在 SWE-Bench Pro 測試上表現更好、速度更快（Codex 新的 fast mode 速度提升了 1.5 倍），它還推出了一個超酷的實驗性功能：「Playwright (Interactive)」。它可以一邊幫你寫 Web 或 Electron app 的 code，一邊用前面提到的「原生電腦控制」功能，直接在畫面上幫你點擊、測試、抓 bug。這畫面光用想的就覺得很科幻。

但真正讓我這個守財奴眼睛一亮的，是它 API 的 Tool Search 機制。

🥸 以前的痛點：我們開發 Agent 時，為了讓 AI 知道有哪些工具可用，必須把所有 API 的詳細定義全部塞進 Prompt 裡。一來一往，Token 狂燒，每個月的帳單看著都想哭。
🥸 GPT-5.4 的解法：它現在只看一份「輕量級目錄」。遇到問題時，它會自己去目錄裡「搜尋」需要的工具，再載入詳細資訊。在 Scale 的 MCP Atlas 測試中，這個機制直接省下了 47% 的 Token 消耗，準確率還沒有掉！這對我們這些自掏腰包跑 API 的開發者來說，根本是德政。

4. 終於學會「先想再做」，不再一條路走到黑

最後聊聊我們平常在網頁版 ChatGPT 的體驗。

GPT-5.4 這次加了一個很有「人性」的功能。當你丟給它一個複雜任務時，它不會再像以前一樣，不吭一聲就開始劈頭狂寫（然後寫到一半你發現它完全誤會你的意思）。

現在，GPT-5.4 會先在畫面上列出「行動計畫」 Action Plan，就像現在 Antigravity 的 Plan & Review。

你可以看著它的計畫，在中途隨時喊停：「等等，第二步方向錯了，改成這樣做。」這就像是你帶了一個聰明但還是有點菜的新人，他終於學會了「動手前先給 Proposal 確認」的良好職場習慣，請鼓掌 👍

光是這個功能，就能省下我們無數次重新 prompt 的時間。

值得重新掏錢嗎？

看著這份華麗的更新名單，我只能說，OpenAI 真的很懂怎麼拿捏我們這些科技從業人員的軟肋。

原生電腦操作、百萬 Token 上下文、減少一半的工具呼叫成本、還有一位會先寫 Proposal 的 AI 助手。

GPT-5.4 確實是一個巨大的躍進，它不再只是一個「很會聊天的機器人」，而是一個真正能幫你做繁瑣苦差事的「生產力工具」了。

雖然被割韭菜的感覺還是有點不爽，但為了這些新功能，我還是默默把信用卡號重新填回去了。畢竟在科技業，落後別人半年的生產力，可不是幾杯精品咖啡能補得回來的。

📩 如果你想收到更多這類貼近現場的思考，

歡迎訂閱我的付費專欄，和我一起拆解 AI 世界裡最需要的「人類力」。

Thanks for reading AI MarkIncome! This post is public so feel free to share it.

AI MarkIncome

Discussion about this post

Ready for more?