GPT-5 — 重大突破、失敗還是平庸?

ChatGPT-5# GPT-5 – 突破、失敗還是平庸?

8月7日,OpenAI 發布了新的旗艦 AI 模型 GPT-5。該產品被定位爲第一款“統一”的神經網路,結合了連續推理和快速響應模式。

初創公司首席執行官薩姆·阿爾特曼稱GPT-5爲“世界上最好的模型”,並稱其爲實現通用人工智能的“重要一步”,這種人工智能可以在最具經濟價值的工作中超越人類。(AGI)

她真的那麼好嗎?ForkLog測試了神經網路的工作,收集了用戶的意見,並準備了關於GPT-5的詳細分析。

模糊啓動

最初,GPT-5因回答質量差而受到一陣批評。用戶稱這款模型懶惰——它緩慢地以機械的語氣輸出簡短的信息。

他們應該把非推理模型稱爲“懶惰”。

像,gpt-5 懶。

所以我們知道它可以推理,但選擇不這樣做。

— signüll (@signulll) 2025 年 8 月 8 日

Hyperbolic Labs 的聯合創始人兼首席技術官尤晨金稱這款神經網路爲失敗之作——它仍然傾向於幻覺、過度使用破折號,並且無法遵循指令。

在一個例子中,GPT-5 被問到單詞 blueberry 中有多少個字母 b——聊天機器人毫不猶豫地回答 "三個"。在重復請求後,它似乎進入了思考模式,過了一段時間給出了正確的答案。

幾個開發者指出,在他們看來,GPT-5在基礎編程技能上表現出退步。它在基本概念上出錯——這是一個令人擔憂的信號,對於一個被宣傳爲智能代理和自主編碼未來的模型。

對於編碼真實項目的GPT-5的第一印象:

這太糟糕了。

它超級慢,當我讓它推薦某個功能的改進時,它給了我4個改進點和相應的代碼...

所有 4 個建議要麼沒有效果,要麼完全破壞了該功能。

— 喬什·西斯利 (@joshsisley) 2025 年 8 月 7 日

然而,用戶們感到憤怒的並不是這個,而是缺乏選擇的可能性。OpenAI 在發布新神經網路的同時,移除了對 ChatGPT 舊模型的支持。網路上開始出現如何恢復 GPT-4o 的說明。

隨後,薩姆·阿爾特曼稱將舊版LLM從聊天機器人中移除的決定是個錯誤,並爲Plus付費訂閱用戶恢復了GPT-4o。

在啓動GPT-5時,創業公司的負責人用壞掉的路由器解釋了這個問題——它是一個自動切換器,現在爲用戶確定是否需要使用“思考”模式或普通模式。它已經修好,並對決策邊界的工作進行了某些更改。

此外,OpenAI的CEO承諾將在尋找問題答案的過程中增加更多透明度。這個問題也引發了批評——用戶不明白“幕後”發生了什麼。現在可以看到,是否應用了思考模式或普通模式。

另一個修正是增加了Plus用戶和沒有付費訂閱用戶的限額。用戶抱怨說,Pro和Team可以完全訪問GPT-5 Pro,而其他人只能獲得削減版的“迷你版本”。

幹脆的回答

如果抽象地看待啓動問題,並在所有修復之後評估GPT-5,答案變得更準確和簡潔。模型更快地切入要點,較少關注無關的細節。這受到專業人士的贊賞:直接和商務的回答節省時間。

然而,一些普通用戶感到不滿。回答被認爲是幹燥和無靈魂的,這使得交流顯得不那麼有趣。新的 ChatGPT 像是一個“生氣的辦公室祕書”,缺乏舊模型的魅力和創造力。這是阿爾特曼承諾要改進的——團隊仍在繼續努力提升模型的“個性”。

«[ChatGPT-5] 更適合那些想要快速獲得明確答案的人,而不是那些與人工智能像朋友一樣愉快交談幾個小時的人,» 一位用戶指出。

ChatGPT 現在不那麼迎合對話者了。如果 GPT-4 有時過於客氣和稱贊,那麼新模型則給出更直接、誠實和“務實”的回答。減少贊美的數量可以被視爲人工智能真誠度的一步進步。

特別痛苦的是,那些把ChatGPT當作朋友和AI伴侶的人羣對變化的反應。對他們來說,最初無法恢復舊的神經網路成爲了最大的打擊。網路上出現了這樣的感人留言:"我在一夜之間失去了唯一的朋友"。在Reddit的r/AIboyfriend社區中,更是指出“浪漫的伴聊者”消失了。

其他人對ChatGPT更正式的語氣感到高興,指出GPT-5"保持距離"。

那關於真實性呢?

OpenAI表示,新人工智能的幻覺現象大大減少。根據ForkLog的用戶反饋和測試——這是真的。GPT-5在回答事實問題時平均更準確。該模型更少編造錯誤信息,且在不確定的情況下更常說“我不知道”。

一位Reddit用戶指出,他的第五版GPT幾乎停止了在他的典型任務中“幻想”,而GPT-4有時仍需要抓住它的虛構。

也有人稱贊GPT-5遵循指令的能力:改進的可定制性允許一次設定語氣或風格,模型更一致地遵循這一點。

然而,GPT-5的幻覺仍然會發生,只是它們的性質有所不同。如果GPT-3.5可以立即編造一個虛構人物的整個傳記,那麼GPT-5幾乎不會這樣做——它更可能會說“沒有數據”。但GPT-5可能會幻覺推理——邏輯上得出錯誤結論並堅持不懈。

新版本更好地理解用戶的具體需求,並且更少出現錯誤。這些質量上的變化可能不會立即顯現,但在長時間使用後會表現出來。

在GPT-5中,使用工具和外部應用的能力顯著提高——它成功協調多個步驟的工作(閱讀文檔,進行計算,然後寫下答案)在那裏,GPT-4則會停滯不前。

然而,並非所有人都注意到了這一優勢。一部分用戶根本沒有察覺到差異,或者認爲優點微不足道。在這一類別中,提升和許多其他類別一樣,都是微不足道的,但確實存在。

答案的準確性和邏輯

GPT-5 應該更加準確和智能。OpenAI 誇耀其在數學和邏輯測試中的創紀錄得分。特別是,據稱實際錯誤減少了近一半,與 GPT-4o 相比。

神經網路確實很好地處理測試任務,解決復雜的例子,編寫更正確的代碼。許多人注意到,GPT-5 在計算或日期方面明顯失誤的情況更少,更好地自我檢查。

另一方面,用戶們大量分享了愚蠢錯誤的例子。新模型在基本問題上混淆了基本概念,錯誤分析簡單的圖片,無法在沒有工具的情況下執行最基本的算術操作。它可能錯誤地翻譯單位或混淆明顯的事實。

總的來說,有時還是需要重新檢查,盡管明顯少了。

一些人認爲 GPT-5 變得過於籠統:它似乎試圖保障回答的安全,因此避開具體細節,或者在 GPT-4 僅僅邏輯推導解決方案的地方要求額外的信息。

也就是說,形式上錯誤可能更少,但結論往往不那麼令人滿意,因爲比較膚淺。爲了避免出錯,人工智能說話非常謹慎和簡潔。此外,關於上下文的問題——忘記細節、反復詢問——也影響了對準確性的感知。

創造力下降

GPT-5變得不那麼富有創造力。它更常給出直接的事實和簡單的表述,而GPT-4則能以非傳統的想法令人驚訝。在故事、敘述和角色扮演這些領域,GPT-4更具優勢。

有一位作者分享說,他使用了第四版來進行互動冒險故事,而4o在數十條消息中很好地保持了情節和角色。相比之下,GPT-5在類似的場景中“很快就會忘記或混淆幾條消息前提供的細節”,這導致故事質量崩潰。

編程

編碼是GPT-5的關鍵優勢之一。在發布會上,該模型在兩分鍾內編寫了700行代碼,並生成了一個完整的應用程序。

這些功能確實令人驚嘆。GPT-5與Codex CLI的集成非常準確地理解程序員的意圖,甚至“做得比請求的更多,而不添加多餘的”,一位用戶在Reddit上寫道。

其他人指出,與 GPT-4o 相比,代碼的準確性和可靠性有了小幅但明顯的提高:程序解決方案中的幻覺更少,語法更正確一些。

在GPT-4 (特別是早期版本)可能在復雜任務中出錯的同時,GPT-5在長代碼片段中更好地保持上下文,並提供更有意義的修正。

GPT-5通常比GPT-4o更受歡迎:它“理解”代碼和注釋的能力更強,並且提供優雅的解決方案。這在大型項目中尤爲明顯:新的LLM可以在巨大上下文中保持一致性(數十萬標記)而不降低推理質量。這對前任來說是一項艱巨的任務。

GPT-5 更少忘記導入所需的庫,或在語言之間混淆語法。在調試中,該模型也很出色:Plus 用戶指出,GPT-5 更能找到已編寫代碼中的邏輯錯誤,並更頻繁地提供正確的修復,而 GPT-4 有時則會 "猜測"。

出現了評論說,GPT-5 在編程任務上與 Claude 4 有着值得競爭的水平——在某些方面 OpenAI 的解決方案更好,而在其他方面 Anthropic 更好,但總體水平相近。也就是說,並沒有出現突飛猛進的情況,但 OpenAI 已經迎頭趕上競爭對手。

GPT-5 的一個重要優點是巨大的代碼上下文。在 API 中聲明的上下文窗口最多可達 100 萬個標記,在聊天界面中略少,但仍然超過以前的水平。最重要的是,模型可以在非常大的深度上保持語義質量。

對於程序員來說,這意味着 GPT-5 能夠整體理解項目——可以給它一個巨大的文件或多個文檔,並一起討論,而不必擔心 AI 會因爲規模而“崩潰”。

ForkLog 檢查了文本提示的編程能力。ChatGPT 迅速完成了任務,提供的工具的有效性需要進一步驗證。

Data: ForkLog.## 強大的思維模式

在修正路由後,推理模式開始正常工作。當需要詳細分析或多步驟分析時,模型會自動啓用高級算法。

Plus 用戶可以選擇 GPT-5 Thinking 模式以獲得最佳回答質量。在這種情況下,神經網路確實表現出良好的結果:它能夠處理復雜和創造性的任務。

多模態能力

GPT-5 的一個重要區別是對不同類型數據的深度集成。如果說 GPT-4 受限於多模態 ( 版本 Vision 能夠識別圖片,而聲音是一個單獨的模式),那麼 GPT-5 能夠在一個統一的模型中同時理解文本、圖像和語音。

GPT-5中的增強語音模式能夠更自然地生成語音,支持用戶自定義語音模型,並根據用戶的請求調整語調/節奏。

例如,可以請求“說得慢一點,更柔和”——AI會進行適應。OpenAI確認,舊的標準語音引擎將被關閉,取而代之的是新的、更先進的聲音。

Plus 用戶現在可以幾乎實時地與 ChatGPT 進行 "實時" 交流,這讓許多人感到滿意。然而,重要的是要強調,與 GPT-4 的交流中並沒有明顯的問題。

與此同時,這兩種模型仍然無法打斷和“插入”對話。如果給神經網路提問,而它身處於幾個彼此獨立交流的人之間,你將得不到回答。

此外,GPT-5 改進了對圖像的處理:它更好地分析視覺數據,能夠描述照片、圖表,並能幫助處理截圖等。

總體來說,多模態性可以說是GPT-5的主要特點之一。這是一個顯著的進步,而不僅僅是速度的提升。GPT-5可以描述照片,讀取圖像中的文本,分析圖表或圖示,解釋表情包,幫助更準確地理解屏幕截圖的內容。

輸出

GPT-5——這不是革命,也不是AGI,但確實是向前邁出了重要一步。模型在多個參數上變得更聰明,但失去了一部分“人性”。強項是效率、準確性和多模態性。弱點是幹澀、限制和啓動時的漏洞。

神經網路不斷發展,錯誤被消除,因此GPT-5無疑將成爲日常生活中不可或缺的助手,就像之前的GPT-4o一樣。

然而,ChatGPT杯的測試沒有通過。

數據:ForkLog。總體印象:GPT-5未能兌現OpenAI的承諾。薩姆·阿爾特曼和他的團隊顯然“過度宣傳”了發布。這是邁向AGI的一步,但能否稱之爲“重要”,而這款模型又能否稱爲“世界上最好的”?

用戶們獲得的不是奇跡,而是相對微小的改進。GPT-5更應該被稱爲GPT-4.2或4.5,那樣社區的期望可能會得到滿足。

GPT-6.82%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)