GPT-5 — 重大突破、失败还是平庸？

Question

![ChatGPT-5](http://img-cdn.gateio.im/social/moments-486e333267bde3873634eaa0e28e9dda)# GPT-5 – 突破、失败还是平庸？8月7日，OpenAI 发布了新的旗舰 AI 模型 GPT-5。该产品被定位为第一款“统一”的神经网络，结合了连续推理和快速响应模式。初创公司首席执行官萨姆·阿尔特曼称GPT-5为“世界上最好的模型”，并称其为实现通用人工智能的“重要一步”，这种人工智能可以在最具经济价值的工作中超越人类。(AGI)她真的那么好吗？ForkLog测试了神经网络的工作，收集了用户的意见，并准备了关于GPT-5的详细分析。## **模糊启动**最初，GPT-5因回答质量差而受到一阵批评。用户称这款模型懒惰——它缓慢地以机械的语气输出简短的信息。> 他们应该把非推理模型称为“懒惰”。>   > 像，gpt-5 懒。>   > 所以我们知道它可以推理，但选择不这样做。> > — signüll (@signulll) 2025 年 8 月 8 日Hyperbolic Labs 的联合创始人兼首席技术官尤晨金称这款神经网络为失败之作——它仍然倾向于幻觉、过度使用破折号，并且无法遵循指令。在一个例子中，GPT-5 被问到单词 blueberry 中有多少个字母 b——聊天机器人毫不犹豫地回答 "三个"。在重复请求后，它似乎进入了思考模式，过了一段时间给出了正确的答案。几个开发者指出，在他们看来，GPT-5在基础编程技能上表现出退步。它在基本概念上出错——这是一个令人担忧的信号，对于一个被宣传为智能代理和自主编码未来的模型。> 对于编码真实项目的GPT-5的第一印象：>   > 这太糟糕了。>   > 它超级慢，当我让它推荐某个功能的改进时，它给了我4个改进点和相应的代码...>   > 所有 4 个建议要么没有效果，要么完全破坏了该功能。> > — 乔什·西斯利 (@joshsisley) 2025 年 8 月 7 日然而，用户们感到愤怒的并不是这个，而是缺乏选择的可能性。OpenAI 在发布新神经网络的同时，移除了对 ChatGPT 旧模型的支持。网络上开始出现如何恢复 GPT-4o 的说明。随后，萨姆·阿尔特曼称将旧版LLM从聊天机器人中移除的决定是个错误，并为Plus付费订阅用户恢复了GPT-4o。在启动GPT-5时，创业公司的负责人用坏掉的路由器解释了这个问题——它是一个自动切换器，现在为用户确定是否需要使用“思考”模式或普通模式。它已经修好，并对决策边界的工作进行了某些更改。此外，OpenAI的CEO承诺将在寻找问题答案的过程中增加更多透明度。这个问题也引发了批评——用户不明白“幕后”发生了什么。现在可以看到，是否应用了思考模式或普通模式。另一个修正是增加了Plus用户和没有付费订阅用户的限额。用户抱怨说，Pro和Team可以完全访问GPT-5 Pro，而其他人只能获得削减版的“迷你版本”。## **干脆的回答**如果抽象地看待启动问题，并在所有修复之后评估GPT-5，答案变得更准确和简洁。模型更快地切入要点，较少关注无关的细节。这受到专业人士的赞赏：直接和商务的回答节省时间。然而，一些普通用户感到不满。回答被认为是干燥和无灵魂的，这使得交流显得不那么有趣。新的 ChatGPT 像是一个“生气的办公室秘书”，缺乏旧模型的魅力和创造力。这是阿尔特曼承诺要改进的——团队仍在继续努力提升模型的“个性”。> > «[ChatGPT-5] 更适合那些想要快速获得明确答案的人，而不是那些与人工智能像朋友一样愉快交谈几个小时的人，» 一位用户指出。> > > ChatGPT 现在不那么迎合对话者了。如果 GPT-4 有时过于客气和称赞，那么新模型则给出更直接、诚实和“务实”的回答。减少赞美的数量可以被视为人工智能真诚度的一步进步。特别痛苦的是，那些把ChatGPT当作朋友和AI伴侣的人群对变化的反应。对他们来说，最初无法恢复旧的神经网络成为了最大的打击。网络上出现了这样的感人留言："我在一夜之间失去了唯一的朋友"。在Reddit的r/AIboyfriend社区中，更是指出“浪漫的伴聊者”消失了。其他人对ChatGPT更正式的语气感到高兴，指出GPT-5"保持距离"。## **那关于真实性呢？**OpenAI表示，新人工智能的幻觉现象大大减少。根据ForkLog的用户反馈和测试——这是真的。GPT-5在回答事实问题时平均更准确。该模型更少编造错误信息，且在不确定的情况下更常说“我不知道”。一位Reddit用户指出，他的第五版GPT几乎停止了在他的典型任务中“幻想”，而GPT-4有时仍需要抓住它的虚构。也有人称赞GPT-5遵循指令的能力：改进的可定制性允许一次设定语气或风格，模型更一致地遵循这一点。然而，GPT-5的幻觉仍然会发生，只是它们的性质有所不同。如果GPT-3.5可以立即编造一个虚构人物的整个传记，那么GPT-5几乎不会这样做——它更可能会说“没有数据”。但GPT-5可能会幻觉推理——逻辑上得出错误结论并坚持不懈。新版本更好地理解用户的具体需求，并且更少出现错误。这些质量上的变化可能不会立即显现，但在长时间使用后会表现出来。在GPT-5中，使用工具和外部应用的能力显著提高——它成功协调多个步骤的工作(阅读文档，进行计算，然后写下答案)在那里，GPT-4则会停滞不前。然而，并非所有人都注意到了这一优势。一部分用户根本没有察觉到差异，或者认为优点微不足道。在这一类别中，提升和许多其他类别一样，都是微不足道的，但确实存在。## **答案的准确性和逻辑**GPT-5 应该更加准确和智能。OpenAI 夸耀其在数学和逻辑测试中的创纪录得分。特别是，据称实际错误减少了近一半，与 GPT-4o 相比。神经网络确实很好地处理测试任务，解决复杂的例子，编写更正确的代码。许多人注意到，GPT-5 在计算或日期方面明显失误的情况更少，更好地自我检查。另一方面，用户们大量分享了愚蠢错误的例子。新模型在基本问题上混淆了基本概念，错误分析简单的图片，无法在没有工具的情况下执行最基本的算术操作。它可能错误地翻译单位或混淆明显的事实。总的来说，有时还是需要重新检查，尽管明显少了。一些人认为 GPT-5 变得过于笼统：它似乎试图保障回答的安全，因此避开具体细节，或者在 GPT-4 仅仅逻辑推导解决方案的地方要求额外的信息。也就是说，形式上错误可能更少，但结论往往不那么令人满意，因为比较肤浅。为了避免出错，人工智能说话非常谨慎和简洁。此外，关于上下文的问题——忘记细节、反复询问——也影响了对准确性的感知。## **创造力下降**GPT-5变得不那么富有创造力。它更常给出直接的事实和简单的表述，而GPT-4则能以非传统的想法令人惊讶。在故事、叙述和角色扮演这些领域，GPT-4更具优势。有一位作者分享说，他使用了第四版来进行互动冒险故事，而4o在数十条消息中很好地保持了情节和角色。相比之下，GPT-5在类似的场景中“很快就会忘记或混淆几条消息前提供的细节”，这导致故事质量崩溃。## **编程**编码是GPT-5的关键优势之一。在发布会上，该模型在两分钟内编写了700行代码，并生成了一个完整的应用程序。这些功能确实令人惊叹。GPT-5与Codex CLI的集成非常准确地理解程序员的意图，甚至“做得比请求的更多，而不添加多余的”，一位用户在Reddit上写道。其他人指出，与 GPT-4o 相比，代码的准确性和可靠性有了小幅但明显的提高：程序解决方案中的幻觉更少，语法更正确一些。在GPT-4 (特别是早期版本)可能在复杂任务中出错的同时，GPT-5在长代码片段中更好地保持上下文，并提供更有意义的修正。GPT-5通常比GPT-4o更受欢迎：它“理解”代码和注释的能力更强，并且提供优雅的解决方案。这在大型项目中尤为明显：新的LLM可以在巨大上下文中保持一致性(数十万标记)而不降低推理质量。这对前任来说是一项艰巨的任务。GPT-5 更少忘记导入所需的库，或在语言之间混淆语法。在调试中，该模型也很出色：Plus 用户指出，GPT-5 更能找到已编写代码中的逻辑错误，并更频繁地提供正确的修复，而 GPT-4 有时则会 "猜测"。出现了评论说，GPT-5 在编程任务上与 Claude 4 有着值得竞争的水平——在某些方面 OpenAI 的解决方案更好，而在其他方面 Anthropic 更好，但总体水平相近。也就是说，并没有出现突飞猛进的情况，但 OpenAI 已经迎头赶上竞争对手。GPT-5 的一个重要优点是巨大的代码上下文。在 API 中声明的上下文窗口最多可达 100 万个标记，在聊天界面中略少，但仍然超过以前的水平。最重要的是，模型可以在非常大的深度上保持语义质量。对于程序员来说，这意味着 GPT-5 能够整体理解项目——可以给它一个巨大的文件或多个文档，并一起讨论，而不必担心 AI 会因为规模而“崩溃”。ForkLog 检查了文本提示的编程能力。ChatGPT 迅速完成了任务，提供的工具的有效性需要进一步验证。![](http://img-cdn.gateio.im/social/moments-5a9c1f338a1c4cc4d3bc2992532bf7c1)Data： ForkLog.## **强大的思维模式**在修正路由后，推理模式开始正常工作。当需要详细分析或多步骤分析时，模型会自动启用高级算法。Plus 用户可以选择 GPT-5 Thinking 模式以获得最佳回答质量。在这种情况下，神经网络确实表现出良好的结果：它能够处理复杂和创造性的任务。## **多模态能力**GPT-5 的一个重要区别是对不同类型数据的深度集成。如果说 GPT-4 受限于多模态 ( 版本 Vision 能够识别图片，而声音是一个单独的模式)，那么 GPT-5 能够在一个统一的模型中同时理解文本、图像和语音。GPT-5中的增强语音模式能够更自然地生成语音，支持用户自定义语音模型，并根据用户的请求调整语调/节奏。例如，可以请求“说得慢一点，更柔和”——AI会进行适应。OpenAI确认，旧的标准语音引擎将被关闭，取而代之的是新的、更先进的声音。Plus 用户现在可以几乎实时地与 ChatGPT 进行 "实时" 交流，这让许多人感到满意。然而，重要的是要强调，与 GPT-4 的交流中并没有明显的问题。与此同时，这两种模型仍然无法打断和“插入”对话。如果给神经网络提问，而它身处于几个彼此独立交流的人之间，你将得不到回答。此外，GPT-5 改进了对图像的处理：它更好地分析视觉数据，能够描述照片、图表，并能帮助处理截图等。总体来说，多模态性可以说是GPT-5的主要特点之一。这是一个显著的进步，而不仅仅是速度的提升。GPT-5可以描述照片，读取图像中的文本，分析图表或图示，解释表情包，帮助更准确地理解屏幕截图的内容。## **输出**GPT-5——这不是革命，也不是AGI，但确实是向前迈出了重要一步。模型在多个参数上变得更聪明，但失去了一部分“人性”。强项是效率、准确性和多模态性。弱点是干涩、限制和启动时的漏洞。神经网络不断发展，错误被消除，因此GPT-5无疑将成为日常生活中不可或缺的助手，就像之前的GPT-4o一样。然而，ChatGPT杯的测试没有通过。![](https://img-cdn.gateio.im/social/moments-9a61210a3daaa45af9e2b46d5dbf15aa)数据：ForkLog。总体印象：GPT-5未能兑现OpenAI的承诺。萨姆·阿尔特曼和他的团队显然“过度宣传”了发布。这是迈向AGI的一步，但能否称之为“重要”，而这款模型又能否称为“世界上最好的”？用户们获得的不是奇迹，而是相对微小的改进。GPT-5更应该被称为GPT-4.2或4.5，那样社区的期望可能会得到满足。