GPT-5 — 重大突破、失敗還是平庸？

Question

![ChatGPT-5](http://img-cdn.gateio.im/social/moments-486e333267bde3873634eaa0e28e9dda)# GPT-5 – 突破、失敗還是平庸？8月7日，OpenAI 發布了新的旗艦 AI 模型 GPT-5。該產品被定位爲第一款“統一”的神經網路，結合了連續推理和快速響應模式。初創公司首席執行官薩姆·阿爾特曼稱GPT-5爲“世界上最好的模型”，並稱其爲實現通用人工智能的“重要一步”，這種人工智能可以在最具經濟價值的工作中超越人類。(AGI)她真的那麼好嗎？ForkLog測試了神經網路的工作，收集了用戶的意見，並準備了關於GPT-5的詳細分析。## **模糊啓動**最初，GPT-5因回答質量差而受到一陣批評。用戶稱這款模型懶惰——它緩慢地以機械的語氣輸出簡短的信息。> 他們應該把非推理模型稱爲“懶惰”。>   > 像，gpt-5 懶。>   > 所以我們知道它可以推理，但選擇不這樣做。> > — signüll (@signulll) 2025 年 8 月 8 日Hyperbolic Labs 的聯合創始人兼首席技術官尤晨金稱這款神經網路爲失敗之作——它仍然傾向於幻覺、過度使用破折號，並且無法遵循指令。在一個例子中，GPT-5 被問到單詞 blueberry 中有多少個字母 b——聊天機器人毫不猶豫地回答 "三個"。在重復請求後，它似乎進入了思考模式，過了一段時間給出了正確的答案。幾個開發者指出，在他們看來，GPT-5在基礎編程技能上表現出退步。它在基本概念上出錯——這是一個令人擔憂的信號，對於一個被宣傳爲智能代理和自主編碼未來的模型。> 對於編碼真實項目的GPT-5的第一印象：>   > 這太糟糕了。>   > 它超級慢，當我讓它推薦某個功能的改進時，它給了我4個改進點和相應的代碼...>   > 所有 4 個建議要麼沒有效果，要麼完全破壞了該功能。> > — 喬什·西斯利 (@joshsisley) 2025 年 8 月 7 日然而，用戶們感到憤怒的並不是這個，而是缺乏選擇的可能性。OpenAI 在發布新神經網路的同時，移除了對 ChatGPT 舊模型的支持。網路上開始出現如何恢復 GPT-4o 的說明。隨後，薩姆·阿爾特曼稱將舊版LLM從聊天機器人中移除的決定是個錯誤，並爲Plus付費訂閱用戶恢復了GPT-4o。在啓動GPT-5時，創業公司的負責人用壞掉的路由器解釋了這個問題——它是一個自動切換器，現在爲用戶確定是否需要使用“思考”模式或普通模式。它已經修好，並對決策邊界的工作進行了某些更改。此外，OpenAI的CEO承諾將在尋找問題答案的過程中增加更多透明度。這個問題也引發了批評——用戶不明白“幕後”發生了什麼。現在可以看到，是否應用了思考模式或普通模式。另一個修正是增加了Plus用戶和沒有付費訂閱用戶的限額。用戶抱怨說，Pro和Team可以完全訪問GPT-5 Pro，而其他人只能獲得削減版的“迷你版本”。## **幹脆的回答**如果抽象地看待啓動問題，並在所有修復之後評估GPT-5，答案變得更準確和簡潔。模型更快地切入要點，較少關注無關的細節。這受到專業人士的贊賞：直接和商務的回答節省時間。然而，一些普通用戶感到不滿。回答被認爲是幹燥和無靈魂的，這使得交流顯得不那麼有趣。新的 ChatGPT 像是一個“生氣的辦公室祕書”，缺乏舊模型的魅力和創造力。這是阿爾特曼承諾要改進的——團隊仍在繼續努力提升模型的“個性”。> > «[ChatGPT-5] 更適合那些想要快速獲得明確答案的人，而不是那些與人工智能像朋友一樣愉快交談幾個小時的人，» 一位用戶指出。> > > ChatGPT 現在不那麼迎合對話者了。如果 GPT-4 有時過於客氣和稱贊，那麼新模型則給出更直接、誠實和“務實”的回答。減少贊美的數量可以被視爲人工智能真誠度的一步進步。特別痛苦的是，那些把ChatGPT當作朋友和AI伴侶的人羣對變化的反應。對他們來說，最初無法恢復舊的神經網路成爲了最大的打擊。網路上出現了這樣的感人留言："我在一夜之間失去了唯一的朋友"。在Reddit的r/AIboyfriend社區中，更是指出“浪漫的伴聊者”消失了。其他人對ChatGPT更正式的語氣感到高興，指出GPT-5"保持距離"。## **那關於真實性呢？**OpenAI表示，新人工智能的幻覺現象大大減少。根據ForkLog的用戶反饋和測試——這是真的。GPT-5在回答事實問題時平均更準確。該模型更少編造錯誤信息，且在不確定的情況下更常說“我不知道”。一位Reddit用戶指出，他的第五版GPT幾乎停止了在他的典型任務中“幻想”，而GPT-4有時仍需要抓住它的虛構。也有人稱贊GPT-5遵循指令的能力：改進的可定制性允許一次設定語氣或風格，模型更一致地遵循這一點。然而，GPT-5的幻覺仍然會發生，只是它們的性質有所不同。如果GPT-3.5可以立即編造一個虛構人物的整個傳記，那麼GPT-5幾乎不會這樣做——它更可能會說“沒有數據”。但GPT-5可能會幻覺推理——邏輯上得出錯誤結論並堅持不懈。新版本更好地理解用戶的具體需求，並且更少出現錯誤。這些質量上的變化可能不會立即顯現，但在長時間使用後會表現出來。在GPT-5中，使用工具和外部應用的能力顯著提高——它成功協調多個步驟的工作(閱讀文檔，進行計算，然後寫下答案)在那裏，GPT-4則會停滯不前。然而，並非所有人都注意到了這一優勢。一部分用戶根本沒有察覺到差異，或者認爲優點微不足道。在這一類別中，提升和許多其他類別一樣，都是微不足道的，但確實存在。## **答案的準確性和邏輯**GPT-5 應該更加準確和智能。OpenAI 誇耀其在數學和邏輯測試中的創紀錄得分。特別是，據稱實際錯誤減少了近一半，與 GPT-4o 相比。神經網路確實很好地處理測試任務，解決復雜的例子，編寫更正確的代碼。許多人注意到，GPT-5 在計算或日期方面明顯失誤的情況更少，更好地自我檢查。另一方面，用戶們大量分享了愚蠢錯誤的例子。新模型在基本問題上混淆了基本概念，錯誤分析簡單的圖片，無法在沒有工具的情況下執行最基本的算術操作。它可能錯誤地翻譯單位或混淆明顯的事實。總的來說，有時還是需要重新檢查，盡管明顯少了。一些人認爲 GPT-5 變得過於籠統：它似乎試圖保障回答的安全，因此避開具體細節，或者在 GPT-4 僅僅邏輯推導解決方案的地方要求額外的信息。也就是說，形式上錯誤可能更少，但結論往往不那麼令人滿意，因爲比較膚淺。爲了避免出錯，人工智能說話非常謹慎和簡潔。此外，關於上下文的問題——忘記細節、反復詢問——也影響了對準確性的感知。## **創造力下降**GPT-5變得不那麼富有創造力。它更常給出直接的事實和簡單的表述，而GPT-4則能以非傳統的想法令人驚訝。在故事、敘述和角色扮演這些領域，GPT-4更具優勢。有一位作者分享說，他使用了第四版來進行互動冒險故事，而4o在數十條消息中很好地保持了情節和角色。相比之下，GPT-5在類似的場景中“很快就會忘記或混淆幾條消息前提供的細節”，這導致故事質量崩潰。## **編程**編碼是GPT-5的關鍵優勢之一。在發布會上，該模型在兩分鍾內編寫了700行代碼，並生成了一個完整的應用程序。這些功能確實令人驚嘆。GPT-5與Codex CLI的集成非常準確地理解程序員的意圖，甚至“做得比請求的更多，而不添加多餘的”，一位用戶在Reddit上寫道。其他人指出，與 GPT-4o 相比，代碼的準確性和可靠性有了小幅但明顯的提高：程序解決方案中的幻覺更少，語法更正確一些。在GPT-4 (特別是早期版本)可能在復雜任務中出錯的同時，GPT-5在長代碼片段中更好地保持上下文，並提供更有意義的修正。GPT-5通常比GPT-4o更受歡迎：它“理解”代碼和注釋的能力更強，並且提供優雅的解決方案。這在大型項目中尤爲明顯：新的LLM可以在巨大上下文中保持一致性(數十萬標記)而不降低推理質量。這對前任來說是一項艱巨的任務。GPT-5 更少忘記導入所需的庫，或在語言之間混淆語法。在調試中，該模型也很出色：Plus 用戶指出，GPT-5 更能找到已編寫代碼中的邏輯錯誤，並更頻繁地提供正確的修復，而 GPT-4 有時則會 "猜測"。出現了評論說，GPT-5 在編程任務上與 Claude 4 有着值得競爭的水平——在某些方面 OpenAI 的解決方案更好，而在其他方面 Anthropic 更好，但總體水平相近。也就是說，並沒有出現突飛猛進的情況，但 OpenAI 已經迎頭趕上競爭對手。GPT-5 的一個重要優點是巨大的代碼上下文。在 API 中聲明的上下文窗口最多可達 100 萬個標記，在聊天界面中略少，但仍然超過以前的水平。最重要的是，模型可以在非常大的深度上保持語義質量。對於程序員來說，這意味着 GPT-5 能夠整體理解項目——可以給它一個巨大的文件或多個文檔，並一起討論，而不必擔心 AI 會因爲規模而“崩潰”。ForkLog 檢查了文本提示的編程能力。ChatGPT 迅速完成了任務，提供的工具的有效性需要進一步驗證。![](http://img-cdn.gateio.im/social/moments-5a9c1f338a1c4cc4d3bc2992532bf7c1)Data： ForkLog.## **強大的思維模式**在修正路由後，推理模式開始正常工作。當需要詳細分析或多步驟分析時，模型會自動啓用高級算法。Plus 用戶可以選擇 GPT-5 Thinking 模式以獲得最佳回答質量。在這種情況下，神經網路確實表現出良好的結果：它能夠處理復雜和創造性的任務。## **多模態能力**GPT-5 的一個重要區別是對不同類型數據的深度集成。如果說 GPT-4 受限於多模態 ( 版本 Vision 能夠識別圖片，而聲音是一個單獨的模式)，那麼 GPT-5 能夠在一個統一的模型中同時理解文本、圖像和語音。GPT-5中的增強語音模式能夠更自然地生成語音，支持用戶自定義語音模型，並根據用戶的請求調整語調/節奏。例如，可以請求“說得慢一點，更柔和”——AI會進行適應。OpenAI確認，舊的標準語音引擎將被關閉，取而代之的是新的、更先進的聲音。Plus 用戶現在可以幾乎實時地與 ChatGPT 進行 "實時" 交流，這讓許多人感到滿意。然而，重要的是要強調，與 GPT-4 的交流中並沒有明顯的問題。與此同時，這兩種模型仍然無法打斷和“插入”對話。如果給神經網路提問，而它身處於幾個彼此獨立交流的人之間，你將得不到回答。此外，GPT-5 改進了對圖像的處理：它更好地分析視覺數據，能夠描述照片、圖表，並能幫助處理截圖等。總體來說，多模態性可以說是GPT-5的主要特點之一。這是一個顯著的進步，而不僅僅是速度的提升。GPT-5可以描述照片，讀取圖像中的文本，分析圖表或圖示，解釋表情包，幫助更準確地理解屏幕截圖的內容。## **輸出**GPT-5——這不是革命，也不是AGI，但確實是向前邁出了重要一步。模型在多個參數上變得更聰明，但失去了一部分“人性”。強項是效率、準確性和多模態性。弱點是幹澀、限制和啓動時的漏洞。神經網路不斷發展，錯誤被消除，因此GPT-5無疑將成爲日常生活中不可或缺的助手，就像之前的GPT-4o一樣。然而，ChatGPT杯的測試沒有通過。![](https://img-cdn.gateio.im/social/moments-9a61210a3daaa45af9e2b46d5dbf15aa)數據：ForkLog。總體印象：GPT-5未能兌現OpenAI的承諾。薩姆·阿爾特曼和他的團隊顯然“過度宣傳”了發布。這是邁向AGI的一步，但能否稱之爲“重要”，而這款模型又能否稱爲“世界上最好的”？用戶們獲得的不是奇跡，而是相對微小的改進。GPT-5更應該被稱爲GPT-4.2或4.5，那樣社區的期望可能會得到滿足。