才剛按下退訂按鈕,OpenAI 就來大招
GPT-5.4 實測
【工程師碎碎念】上個月初我才剛跟朋友抱怨完上一代模型寫 code 有多雷,信誓旦旦地把訂閱給停了,想說把這筆錢省下來當作我 SaaS 專案的伺服器費用。結果昨天看完新發表會,我默默摸摸鼻子,重新把信用卡號給填了回去。這次真的不是擠牙膏,他們是直接把整條牙膏給捏爆了。
在 ChatGPT 設定頁面按下「取消訂閱」那一刻,心裡是有點暗爽的。
你大概懂我的感受:GPT-5.3 codex 真的是讓人又愛又恨。說好聽一點是「還在發展中的過渡期產品」,說難聽一點,就是每個月花幾百塊台幣,請一個會一本正經八百寫出 bug、還死不認錯的數位實習生。
我本來想著,這幾百塊省下來,每個月可以多喝幾杯手沖精品豆,或當作我 SaaS 專案的伺服器費用,順便讓 OpenAI 知道我們這些老用戶也是有要求的。
結果呢?我連上個月的帳單都還沒繳清,OpenAI 就來了這齣:
GPT-5.4 橫空出世。
看完了他們的發佈會和技術文件,我默默喝了一口冷掉的咖啡,然後... 點開了綁定信用卡的頁面,再給你一次機會。哎,身為一個在業界打滾多年的工程師,我必須得承認:這次 OpenAI 不是在擠牙膏,他們是真的端出了一盤大菜。
如果你跟我一樣,對上一代模型感到心灰意冷,今天我們就來聊聊,為什麼這次 GPT-5.4 值得你再給它一次機會。
1. 它居然學會自己「點滑鼠」了?原生電腦控制時代來臨
這次最讓我這個工程師看傻眼的,就是 原生電腦控制(Native Computer Use)。
以前我們如果要在網頁或軟體上搞自動化,那是個苦力活。你要寫爬蟲、要用 Selenium 還是 Puppeteer 去定位那些隱藏在 DOM tree 裡面的奇葩元素,只要網頁一改版,你的 code 就準備報錯。
但 GPT-5.4 的玩法完全不一樣。它是第一個能夠直接「看懂」螢幕截圖,然後自己發送滑鼠和鍵盤指令的通用模型。
💡 數據說話: 在專門測試軟體操作的 OSWorld-Verified 跑分中,上一代 5.2 只有可憐的 47.3%,而這次 GPT-5.4 直接飆到 75.0%。最恐怖的是,人類的平均分數也才 72.4%。
這代表什麼?這代表在「看圖操作軟體」這件事上,這傢伙已經比你辦公室裡一半的同事還要俐落了。未來我們要寫 Agent 幫忙訂票、抓資料、甚至填系統表單,終於不用再刻那些脆弱的爬蟲程式碼了。
2. 金融圈跟 PM 們的肝,有救了
OpenAI 這次很明顯把目標瞄準了「真正在辦公室裡賣命」的白領階級。
如果你常需要搞財報、做投資模型或是整理超大張的 Excel 表格,GPT-5.4 這次的升級會讓你很有感。在他們針對初階投資銀行分析師設計的內部測試中,5.4 的勝率高達 87.5%(5.2 只有 68.4%)。
更重要的是,大家都痛恨的「AI 幻覺(一本正經講幹話)」終於減少了:
🦄 單一事實錯誤率下降了 33%。
🦄 整體回覆包含錯誤的機率下降了 18%。
對於那些用 AI 寫合約草稿或查數據的專業人士來說,這 18% 可能就是你免於被老闆調職去複印文件的保命符。
3. 工程師的福音:終於整合 Codex,還有神級的「省錢」機制
回到我們工程師的主場。這次 GPT-5.4 直接取代了原本的 Codex 變成主力寫 code 模型。
不僅在 SWE-Bench Pro 測試上表現更好、速度更快(Codex 新的 fast mode 速度提升了 1.5 倍),它還推出了一個超酷的實驗性功能:「Playwright (Interactive)」。它可以一邊幫你寫 Web 或 Electron app 的 code,一邊用前面提到的「原生電腦控制」功能,直接在畫面上幫你點擊、測試、抓 bug。這畫面光用想的就覺得很科幻。
但真正讓我這個守財奴眼睛一亮的,是它 API 的 Tool Search 機制。
🥸 以前的痛點: 我們開發 Agent 時,為了讓 AI 知道有哪些工具可用,必須把所有 API 的詳細定義全部塞進 Prompt 裡。一來一往,Token 狂燒,每個月的帳單看著都想哭。
🥸 GPT-5.4 的解法: 它現在只看一份「輕量級目錄」。遇到問題時,它會自己去目錄裡「搜尋」需要的工具,再載入詳細資訊。在 Scale 的 MCP Atlas 測試中,這個機制直接省下了 47% 的 Token 消耗,準確率還沒有掉!這對我們這些自掏腰包跑 API 的開發者來說,根本是德政。
4. 終於學會「先想再做」,不再一條路走到黑
最後聊聊我們平常在網頁版 ChatGPT 的體驗。
GPT-5.4 這次加了一個很有「人性」的功能。當你丟給它一個複雜任務時,它不會再像以前一樣,不吭一聲就開始劈頭狂寫(然後寫到一半你發現它完全誤會你的意思)。
現在,GPT-5.4 會先在畫面上列出「行動計畫」 Action Plan,就像現在 Antigravity 的 Plan & Review。
你可以看著它的計畫,在中途隨時喊停:「等等,第二步方向錯了,改成這樣做。」這就像是你帶了一個聰明但還是有點菜的新人,他終於學會了「動手前先給 Proposal 確認」的良好職場習慣,請鼓掌 👍
光是這個功能,就能省下我們無數次重新 prompt 的時間。
值得重新掏錢嗎?
看著這份華麗的更新名單,我只能說,OpenAI 真的很懂怎麼拿捏我們這些科技從業人員的軟肋。
原生電腦操作、百萬 Token 上下文、減少一半的工具呼叫成本、還有一位會先寫 Proposal 的 AI 助手。
GPT-5.4 確實是一個巨大的躍進,它不再只是一個「很會聊天的機器人」,而是一個真正能幫你做繁瑣苦差事的「生產力工具」了。
雖然被割韭菜的感覺還是有點不爽,但為了這些新功能,我還是默默把信用卡號重新填回去了。畢竟在科技業,落後別人半年的生產力,可不是幾杯精品咖啡能補得回來的。
📩 如果你想收到更多這類貼近現場的思考,
歡迎訂閱我的付費專欄,和我一起拆解 AI 世界裡最需要的「人類力」。


