GPT-5 — 重大突破、失败还是平庸?

ChatGPT-5# GPT-5 – 突破、失败还是平庸?

8月7日,OpenAI 发布了新的旗舰 AI 模型 GPT-5。该产品被定位为第一款“统一”的神经网络,结合了连续推理和快速响应模式。

初创公司首席执行官萨姆·阿尔特曼称GPT-5为“世界上最好的模型”,并称其为实现通用人工智能的“重要一步”,这种人工智能可以在最具经济价值的工作中超越人类。(AGI)

她真的那么好吗?ForkLog测试了神经网络的工作,收集了用户的意见,并准备了关于GPT-5的详细分析。

模糊启动

最初,GPT-5因回答质量差而受到一阵批评。用户称这款模型懒惰——它缓慢地以机械的语气输出简短的信息。

他们应该把非推理模型称为“懒惰”。

像,gpt-5 懒。

所以我们知道它可以推理,但选择不这样做。

— signüll (@signulll) 2025 年 8 月 8 日

Hyperbolic Labs 的联合创始人兼首席技术官尤晨金称这款神经网络为失败之作——它仍然倾向于幻觉、过度使用破折号,并且无法遵循指令。

在一个例子中,GPT-5 被问到单词 blueberry 中有多少个字母 b——聊天机器人毫不犹豫地回答 "三个"。在重复请求后,它似乎进入了思考模式,过了一段时间给出了正确的答案。

几个开发者指出,在他们看来,GPT-5在基础编程技能上表现出退步。它在基本概念上出错——这是一个令人担忧的信号,对于一个被宣传为智能代理和自主编码未来的模型。

对于编码真实项目的GPT-5的第一印象:

这太糟糕了。

它超级慢,当我让它推荐某个功能的改进时,它给了我4个改进点和相应的代码...

所有 4 个建议要么没有效果,要么完全破坏了该功能。

— 乔什·西斯利 (@joshsisley) 2025 年 8 月 7 日

然而,用户们感到愤怒的并不是这个,而是缺乏选择的可能性。OpenAI 在发布新神经网络的同时,移除了对 ChatGPT 旧模型的支持。网络上开始出现如何恢复 GPT-4o 的说明。

随后,萨姆·阿尔特曼称将旧版LLM从聊天机器人中移除的决定是个错误,并为Plus付费订阅用户恢复了GPT-4o。

在启动GPT-5时,创业公司的负责人用坏掉的路由器解释了这个问题——它是一个自动切换器,现在为用户确定是否需要使用“思考”模式或普通模式。它已经修好,并对决策边界的工作进行了某些更改。

此外,OpenAI的CEO承诺将在寻找问题答案的过程中增加更多透明度。这个问题也引发了批评——用户不明白“幕后”发生了什么。现在可以看到,是否应用了思考模式或普通模式。

另一个修正是增加了Plus用户和没有付费订阅用户的限额。用户抱怨说,Pro和Team可以完全访问GPT-5 Pro,而其他人只能获得削减版的“迷你版本”。

干脆的回答

如果抽象地看待启动问题,并在所有修复之后评估GPT-5,答案变得更准确和简洁。模型更快地切入要点,较少关注无关的细节。这受到专业人士的赞赏:直接和商务的回答节省时间。

然而,一些普通用户感到不满。回答被认为是干燥和无灵魂的,这使得交流显得不那么有趣。新的 ChatGPT 像是一个“生气的办公室秘书”,缺乏旧模型的魅力和创造力。这是阿尔特曼承诺要改进的——团队仍在继续努力提升模型的“个性”。

«[ChatGPT-5] 更适合那些想要快速获得明确答案的人,而不是那些与人工智能像朋友一样愉快交谈几个小时的人,» 一位用户指出。

ChatGPT 现在不那么迎合对话者了。如果 GPT-4 有时过于客气和称赞,那么新模型则给出更直接、诚实和“务实”的回答。减少赞美的数量可以被视为人工智能真诚度的一步进步。

特别痛苦的是,那些把ChatGPT当作朋友和AI伴侣的人群对变化的反应。对他们来说,最初无法恢复旧的神经网络成为了最大的打击。网络上出现了这样的感人留言:"我在一夜之间失去了唯一的朋友"。在Reddit的r/AIboyfriend社区中,更是指出“浪漫的伴聊者”消失了。

其他人对ChatGPT更正式的语气感到高兴,指出GPT-5"保持距离"。

那关于真实性呢?

OpenAI表示,新人工智能的幻觉现象大大减少。根据ForkLog的用户反馈和测试——这是真的。GPT-5在回答事实问题时平均更准确。该模型更少编造错误信息,且在不确定的情况下更常说“我不知道”。

一位Reddit用户指出,他的第五版GPT几乎停止了在他的典型任务中“幻想”,而GPT-4有时仍需要抓住它的虚构。

也有人称赞GPT-5遵循指令的能力:改进的可定制性允许一次设定语气或风格,模型更一致地遵循这一点。

然而,GPT-5的幻觉仍然会发生,只是它们的性质有所不同。如果GPT-3.5可以立即编造一个虚构人物的整个传记,那么GPT-5几乎不会这样做——它更可能会说“没有数据”。但GPT-5可能会幻觉推理——逻辑上得出错误结论并坚持不懈。

新版本更好地理解用户的具体需求,并且更少出现错误。这些质量上的变化可能不会立即显现,但在长时间使用后会表现出来。

在GPT-5中,使用工具和外部应用的能力显著提高——它成功协调多个步骤的工作(阅读文档,进行计算,然后写下答案)在那里,GPT-4则会停滞不前。

然而,并非所有人都注意到了这一优势。一部分用户根本没有察觉到差异,或者认为优点微不足道。在这一类别中,提升和许多其他类别一样,都是微不足道的,但确实存在。

答案的准确性和逻辑

GPT-5 应该更加准确和智能。OpenAI 夸耀其在数学和逻辑测试中的创纪录得分。特别是,据称实际错误减少了近一半,与 GPT-4o 相比。

神经网络确实很好地处理测试任务,解决复杂的例子,编写更正确的代码。许多人注意到,GPT-5 在计算或日期方面明显失误的情况更少,更好地自我检查。

另一方面,用户们大量分享了愚蠢错误的例子。新模型在基本问题上混淆了基本概念,错误分析简单的图片,无法在没有工具的情况下执行最基本的算术操作。它可能错误地翻译单位或混淆明显的事实。

总的来说,有时还是需要重新检查,尽管明显少了。

一些人认为 GPT-5 变得过于笼统:它似乎试图保障回答的安全,因此避开具体细节,或者在 GPT-4 仅仅逻辑推导解决方案的地方要求额外的信息。

也就是说,形式上错误可能更少,但结论往往不那么令人满意,因为比较肤浅。为了避免出错,人工智能说话非常谨慎和简洁。此外,关于上下文的问题——忘记细节、反复询问——也影响了对准确性的感知。

创造力下降

GPT-5变得不那么富有创造力。它更常给出直接的事实和简单的表述,而GPT-4则能以非传统的想法令人惊讶。在故事、叙述和角色扮演这些领域,GPT-4更具优势。

有一位作者分享说,他使用了第四版来进行互动冒险故事,而4o在数十条消息中很好地保持了情节和角色。相比之下,GPT-5在类似的场景中“很快就会忘记或混淆几条消息前提供的细节”,这导致故事质量崩溃。

编程

编码是GPT-5的关键优势之一。在发布会上,该模型在两分钟内编写了700行代码,并生成了一个完整的应用程序。

这些功能确实令人惊叹。GPT-5与Codex CLI的集成非常准确地理解程序员的意图,甚至“做得比请求的更多,而不添加多余的”,一位用户在Reddit上写道。

其他人指出,与 GPT-4o 相比,代码的准确性和可靠性有了小幅但明显的提高:程序解决方案中的幻觉更少,语法更正确一些。

在GPT-4 (特别是早期版本)可能在复杂任务中出错的同时,GPT-5在长代码片段中更好地保持上下文,并提供更有意义的修正。

GPT-5通常比GPT-4o更受欢迎:它“理解”代码和注释的能力更强,并且提供优雅的解决方案。这在大型项目中尤为明显:新的LLM可以在巨大上下文中保持一致性(数十万标记)而不降低推理质量。这对前任来说是一项艰巨的任务。

GPT-5 更少忘记导入所需的库,或在语言之间混淆语法。在调试中,该模型也很出色:Plus 用户指出,GPT-5 更能找到已编写代码中的逻辑错误,并更频繁地提供正确的修复,而 GPT-4 有时则会 "猜测"。

出现了评论说,GPT-5 在编程任务上与 Claude 4 有着值得竞争的水平——在某些方面 OpenAI 的解决方案更好,而在其他方面 Anthropic 更好,但总体水平相近。也就是说,并没有出现突飞猛进的情况,但 OpenAI 已经迎头赶上竞争对手。

GPT-5 的一个重要优点是巨大的代码上下文。在 API 中声明的上下文窗口最多可达 100 万个标记,在聊天界面中略少,但仍然超过以前的水平。最重要的是,模型可以在非常大的深度上保持语义质量。

对于程序员来说,这意味着 GPT-5 能够整体理解项目——可以给它一个巨大的文件或多个文档,并一起讨论,而不必担心 AI 会因为规模而“崩溃”。

ForkLog 检查了文本提示的编程能力。ChatGPT 迅速完成了任务,提供的工具的有效性需要进一步验证。

Data: ForkLog.## 强大的思维模式

在修正路由后,推理模式开始正常工作。当需要详细分析或多步骤分析时,模型会自动启用高级算法。

Plus 用户可以选择 GPT-5 Thinking 模式以获得最佳回答质量。在这种情况下,神经网络确实表现出良好的结果:它能够处理复杂和创造性的任务。

多模态能力

GPT-5 的一个重要区别是对不同类型数据的深度集成。如果说 GPT-4 受限于多模态 ( 版本 Vision 能够识别图片,而声音是一个单独的模式),那么 GPT-5 能够在一个统一的模型中同时理解文本、图像和语音。

GPT-5中的增强语音模式能够更自然地生成语音,支持用户自定义语音模型,并根据用户的请求调整语调/节奏。

例如,可以请求“说得慢一点,更柔和”——AI会进行适应。OpenAI确认,旧的标准语音引擎将被关闭,取而代之的是新的、更先进的声音。

Plus 用户现在可以几乎实时地与 ChatGPT 进行 "实时" 交流,这让许多人感到满意。然而,重要的是要强调,与 GPT-4 的交流中并没有明显的问题。

与此同时,这两种模型仍然无法打断和“插入”对话。如果给神经网络提问,而它身处于几个彼此独立交流的人之间,你将得不到回答。

此外,GPT-5 改进了对图像的处理:它更好地分析视觉数据,能够描述照片、图表,并能帮助处理截图等。

总体来说,多模态性可以说是GPT-5的主要特点之一。这是一个显著的进步,而不仅仅是速度的提升。GPT-5可以描述照片,读取图像中的文本,分析图表或图示,解释表情包,帮助更准确地理解屏幕截图的内容。

输出

GPT-5——这不是革命,也不是AGI,但确实是向前迈出了重要一步。模型在多个参数上变得更聪明,但失去了一部分“人性”。强项是效率、准确性和多模态性。弱点是干涩、限制和启动时的漏洞。

神经网络不断发展,错误被消除,因此GPT-5无疑将成为日常生活中不可或缺的助手,就像之前的GPT-4o一样。

然而,ChatGPT杯的测试没有通过。

数据:ForkLog。总体印象:GPT-5未能兑现OpenAI的承诺。萨姆·阿尔特曼和他的团队显然“过度宣传”了发布。这是迈向AGI的一步,但能否称之为“重要”,而这款模型又能否称为“世界上最好的”?

用户们获得的不是奇迹,而是相对微小的改进。GPT-5更应该被称为GPT-4.2或4.5,那样社区的期望可能会得到满足。

GPT-6.82%
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)