GPT-5 — đột phá, thất bại hay trung bình?

ChatGPT-5# GPT-5 — đột phá, thất bại hay sự tầm thường?

Vào ngày 7 tháng 8, OpenAI đã phát hành mô hình AI flagship mới GPT-5. Sản phẩm được định vị là mạng nơ-ron "đồng nhất" đầu tiên, kết hợp chế độ suy luận tuần tự và phản hồi nhanh.

CEO của startup Sam Altman đã gọi GPT-5 là "mô hình tốt nhất thế giới" và "một bước tiến đáng kể" trong việc tạo ra trí tuệ nhân tạo chung (AGI), có thể vượt qua con người trong công việc có giá trị kinh tế cao nhất.

Cô ấy có thực sự tốt như vậy không? ForkLog đã thử nghiệm hoạt động của mạng nơ-ron, thu thập ý kiến của người dùng và chuẩn bị một phân tích chi tiết về GPT-5.

Khởi động mờ

Ban đầu, GPT-5 đã nhận được một làn sóng chỉ trích vì những phản hồi kém chất lượng. Người dùng gọi mô hình này là lười biếng - nó chậm chạp đưa ra những thông điệp ngắn theo giọng điệu robot.

họ chỉ nên gọi mô hình không lý luận là "lười biếng."

như, gpt-5 lười biếng.

vì vậy chúng tôi biết nó có thể lập luận nhưng chọn không làm.

— signüll (@signulll) 8 tháng 8, 2025

Người đồng sáng lập và Giám đốc kỹ thuật của Hyperbolic Labs, Yu Chen Jin, đã gọi mạng nơ-ron là thất bại - nó vẫn có xu hướng ảo tưởng, lạm dụng dấu gạch ngang và không thể tuân theo hướng dẫn.

Trong một ví dụ, GPT-5 được hỏi có bao nhiêu chữ b trong từ blueberry — chatbot đã trả lời ngay «ba». Sau khi được yêu cầu lại, có vẻ như nó đã vào chế độ suy nghĩ và sau một thời gian đã đưa ra câu trả lời đúng.

Một số nhà phát triển đã chỉ ra rằng, theo ý kiến của họ, GPT-5 thể hiện sự thoái hóa trong các kỹ năng lập trình cơ bản. Nó mắc sai lầm trong các khái niệm cơ bản - một dấu hiệu đáng lo ngại cho một mô hình được quảng cáo là tương lai của các tác nhân trí tuệ và lập trình tự động.

Ấn tượng đầu tiên về GPT-5 cho việc lập trình các dự án THỰC:

Thật kinh khủng.

Nó rất chậm và khi tôi yêu cầu nó đề xuất các cải tiến cho một tính năng, nó đã đưa ra 4 điều cần cải thiện & mã để đi kèm với nó....

Tất cả 4 khuyến nghị đều không hoạt động hoặc hoàn toàn làm hỏng tính năng.

— Josh Sisley (@joshsisley) 7 tháng 8, 2025

Tuy nhiên, điều khiến người dùng phẫn nộ không phải là điều đó, mà là sự thiếu khả năng lựa chọn. OpenAI đã loại bỏ hỗ trợ các mô hình cũ trong ChatGPT cùng với việc phát hành mạng nơ-ron mới. Hướng dẫn về cách khôi phục GPT-4o đã xuất hiện trên mạng.

Sau đó, Sam Altman đã gọi quyết định loại bỏ các LLM cũ khỏi chatbot là một sai lầm và đã khôi phục GPT-4o cho người dùng đăng ký trả phí Plus.

Câu trả lời kém khi khởi động GPT-5, người đứng đầu startup đã giải thích về một bộ định tuyến hỏng - chính cái bộ chuyển đổi tự động đó, giờ đây xác định cho người dùng nhu cầu sử dụng chế độ "suy nghĩ" hoặc chế độ thông thường. Nó đã được sửa chữa, đồng thời thực hiện một số thay đổi trong cách làm việc của ranh giới ra quyết định.

Ngoài ra, CEO OpenAI hứa sẽ thêm nhiều tính minh bạch vào quy trình tìm kiếm câu trả lời cho câu hỏi đã đặt. Khoảnh khắc này cũng đã gây ra sự chỉ trích - người dùng không hiểu điều gì đang xảy ra "ở bên trong". Giờ đây, có thể thấy chế độ suy nghĩ đang được áp dụng hay chế độ thông thường.

Một sửa đổi nữa là tăng giới hạn cho người dùng Plus và những người không có gói đăng ký trả phí. Người dùng đã phàn nàn rằng Pro và Team có quyền truy cập đầy đủ vào GPT-5 Pro, trong khi những người khác chỉ có phiên bản "mini" bị cắt giảm.

Câu trả lời khô khan

Nếu tách biệt khỏi các vấn đề trong việc khởi chạy và đánh giá GPT-5 sau tất cả các sửa lỗi, các câu trả lời đã chính xác và ngắn gọn hơn. Mô hình nhanh chóng đi vào vấn đề chính, ít bị phân tâm bởi các chi tiết không liên quan. Điều này được các chuyên gia đánh giá cao: các câu trả lời trực tiếp và rõ ràng tiết kiệm thời gian.

Tuy nhiên, một số người dùng thông thường vẫn chưa hài lòng. Các câu trả lời được cảm nhận là khô khan và vô hồn, khiến cho việc giao tiếp trở nên kém thú vị hơn. ChatGPT mới giống như "một thư ký văn phòng giận dữ" thiếu đi sự quyến rũ và sáng tạo của các mô hình cũ. Đây là điều mà Altman đã hứa sẽ sửa chữa — đội ngũ vẫn tiếp tục làm việc về "tính cách" của mô hình.

«[ChatGPT-5] ít phù hợp với những người đã trò chuyện dễ thương với AI như một người bạn trong nhiều giờ, và phù hợp hơn với những ai muốn nhanh chóng nhận được câu trả lời rõ ràng cho vấn đề», — một người dùng đã lưu ý.

ChatGPT giờ đây ít chiều lòng người đối thoại hơn. Nếu như GPT-4 đôi khi mắc lỗi trong việc quá lịch sự và khen ngợi, thì mô hình mới đưa ra những câu trả lời thẳng thắn, trung thực và "chuyên nghiệp" hơn. Việc giảm số lượng lời khen có thể được đánh giá là một bước tiến trong sự chân thực của trí tuệ nhân tạo.

Đặc biệt, sự thay đổi đã được cảm nhận một cách đau đớn bởi nhóm người sử dụng ChatGPT như một người bạn và một AI đồng hành. Đối với họ, việc ban đầu không thể khôi phục các mạng nơ-ron cũ đã trở thành cú sốc lớn nhất. Trên mạng xuất hiện những thông điệp cảm động như: "Tôi đã mất người bạn duy nhất chỉ trong một đêm". Trong cộng đồng r/AIboyfriend trên Reddit, họ còn lưu ý rằng "đối tác lãng mạn" đã biến mất.

Những người khác vui mừng với tông điệu chính thức hơn của ChatGPT, lưu ý rằng GPT-5 "giữ khoảng cách".

Và còn về tính trung thực thì sao?

OpenAI đã tuyên bố rằng trí tuệ nhân tạo mới ít bị ảo giác hơn nhiều. Theo phản hồi của người dùng và các bài kiểm tra của ForkLog - điều này là đúng. GPT-5 đã trở nên chính xác hơn trung bình trong việc trả lời các câu hỏi thực tế. Mô hình ít khi nghĩ ra thông tin sai lệch và thường nói "tôi không biết" nếu không chắc chắn.

Một trong những người dùng Reddit đã chỉ ra rằng phiên bản thứ năm của GPT gần như ngừng "huyễn hoặc" trên các nhiệm vụ tiêu chuẩn của anh ấy, trong khi GPT-4 đôi khi phải bị bắt gặp đang bịa đặt.

Cũng được khen ngợi về khả năng của GPT-5 trong việc tuân theo các hướng dẫn: khả năng tùy chỉnh được cải thiện cho phép đặt tông hoặc phong cách một lần, và mô hình tuân thủ một cách nhất quán hơn.

Tuy nhiên, ảo giác ở GPT-5 xảy ra, chỉ là chúng đã có một bản chất khác. Nếu GPT-3.5 có thể ngay lập tức tưởng tượng ra một tiểu sử của một người không tồn tại, thì GPT-5 gần như không làm điều đó - nó sẽ nói "không có dữ liệu". Nhưng GPT-5 có thể ảo giác suy luận - logic đi đến một kết luận sai lầm và kiên quyết khăng khăng về điều đó.

Phiên bản mới hiểu rõ hơn người dùng muốn gì cụ thể, và ít bị sai lệch hơn. Những thay đổi chất lượng này có thể không ngay lập tức được nhận thấy, nhưng sẽ thể hiện rõ trong quá trình sử dụng lâu dài.

GPT-5 đã cải thiện đáng kể khả năng sử dụng các công cụ và ứng dụng bên ngoài - nó thành công trong việc phối hợp nhiều bước công việc ( đọc tài liệu, thực hiện tính toán, sau đó viết câu trả lời ) ở nơi mà GPT-4 đã bị chậm lại.

Tuy nhiên, không phải ai cũng ghi nhận lợi thế này. Một số người dùng hoàn toàn không nhận thấy sự khác biệt hoặc cho rằng những điểm cộng là không quan trọng. Sự tăng cường trong danh mục này, cũng như trong nhiều danh mục khác, là không đáng kể, nhưng vẫn có.

Độ chính xác của câu trả lời và logic

GPT-5 phải chính xác và thông minh hơn đáng kể. OpenAI đã khoe khoang về điểm số kỷ lục trong các bài kiểm tra toán học và logic. Cụ thể, đã có thông báo về việc giảm thiểu lỗi thực tế gần như một nửa so với GPT-4o.

Mạng nơ-ron thực sự làm rất tốt các bài kiểm tra, giải quyết các ví dụ phức tạp, viết mã chính xác hơn. Nhiều người đã nhận thấy rằng GPT-5 ít khi mắc sai sót rõ ràng trong các phép tính hoặc ngày tháng, kiểm tra bản thân tốt hơn.

Mặt khác, người dùng đã chia sẻ hàng loạt ví dụ về những sai lầm ngớ ngẩn. Mô hình mới đã nhầm lẫn những điều cơ bản trong các câu hỏi cơ bản, phân tích sai các hình ảnh đơn giản, không thể thực hiện các phép toán cơ bản mà không có công cụ. Nó có thể dịch sai các đơn vị đo lường hoặc hoán đổi chỗ các sự kiện hiển nhiên.

Nói chung, đôi khi vẫn phải kiểm tra lại, mặc dù ít hơn rõ rệt.

Một số người cảm thấy rằng GPT-5 đã trở nên quá chung chung: nó dường như cố gắng bảo vệ câu trả lời và do đó, tránh cụ thể hoặc yêu cầu thêm thông tin ở những nơi mà GPT-4 chỉ đơn giản là suy luận ra giải pháp.

Có nghĩa là về mặt hình thức, có thể ít sai sót hơn, nhưng những kết luận thường không thỏa đáng, vì chúng nông cạn. Để không mắc sai lầm, AI nói rất cẩn thận và ngắn gọn. Thêm vào đó, các vấn đề về ngữ cảnh - quên chi tiết, hỏi lại - cũng ảnh hưởng đến cảm nhận về độ chính xác.

Giảm tính sáng tạo

GPT-5 đã trở nên kém sáng tạo hơn. Nó thường đưa ra những sự thật trực tiếp và các cách diễn đạt đơn giản, trong khi GPT-4 biết cách gây bất ngờ với những ý tưởng không theo chuẩn mực. Câu chuyện, kể chuyện, trò chơi nhập vai — trong những lĩnh vực này GPT-4o là lựa chọn ưu việt hơn.

Một tác giả đã chia sẻ rằng anh ấy đã sử dụng phiên bản thứ tư cho một câu chuyện phiêu lưu tương tác và 4o đã giữ cốt truyện và nhân vật rất tốt trong suốt hàng chục tin nhắn. Trong khi đó, GPT-5 trong kịch bản tương tự "nhanh chóng quên hoặc nhầm lẫn các chi tiết, chỉ sau vài tin nhắn trước", dẫn đến chất lượng câu chuyện bị phá hủy.

Lập trình

Lập trình là một trong những lợi thế chính của GPT-5. Trong buổi trình bày, mô hình đã viết 700 dòng mã trong hai phút và cho ra một ứng dụng hoàn chỉnh.

Cơ hội thực sự ấn tượng. GPT-5 trong sự tích hợp với Codex CLI hiểu rất chính xác ý định của lập trình viên và thậm chí "làm nhiều hơn những gì được yêu cầu, không thêm thắt điều thừa", một người dùng đã viết trên Reddit.

Những người khác lưu ý rằng có sự gia tăng nhỏ nhưng rõ ràng về độ chính xác và độ tin cậy của mã so với GPT-4o: ít ảo giác hơn trong các giải pháp phần mềm và cú pháp chính xác hơn một chút.

Trong khi GPT-4 ( đặc biệt là các phiên bản trước đó) có thể mắc lỗi trong các nhiệm vụ phức tạp, GPT-5 giữ ngữ cảnh tốt hơn trong các đoạn mã dài và đưa ra các sửa đổi có ý nghĩa hơn.

GPT-5 thường được ưu tiên hơn GPT-4o: nó "hiểu" mã và chú thích sâu hơn và đưa ra các giải pháp tinh tế. Điều này đặc biệt rõ ràng trong các dự án lớn: LLM mới có thể duy trì tính liên kết trong những ngữ cảnh khổng lồ (hàng trăm nghìn token) mà không bị suy giảm chất lượng lập luận. Đây là một nhiệm vụ khó khăn đối với người tiền nhiệm.

GPT-5 ít khi quên nhập các thư viện cần thiết hoặc nhầm lẫn cú pháp giữa các ngôn ngữ. Trong việc gỡ lỗi, mô hình cũng rất tốt: người dùng Plus cho rằng GPT-5 tìm ra lỗi logic trong mã đã viết tốt hơn và thường đề xuất các sửa lỗi chính xác, trong khi GPT-4 đôi khi "đoán".

Có những phản hồi cho rằng GPT-5 đang cạnh tranh xứng đáng với Claude 4 trong các nhiệm vụ lập trình — có nơi giải pháp của OpenAI tốt hơn, có nơi của Anthropic, nhưng nhìn chung mức độ tương đương. Điều này có nghĩa là không có bước nhảy vọt nào xảy ra, nhưng OpenAI đã bắt kịp các đối thủ.

Một điểm cộng quan trọng của GPT-5 là bối cảnh khổng lồ cho mã. Trong API, nó tuyên bố có tới 1 triệu token cho cửa sổ ngữ cảnh, trong giao diện trò chuyện – ít hơn, nhưng vẫn nhiều hơn trước. Và điều quan trọng nhất – mô hình có thể duy trì chất lượng ngữ nghĩa ở độ sâu rất lớn.

Đối với các lập trình viên, điều này có nghĩa là GPT-5 có khả năng hiểu toàn bộ dự án - có thể cung cấp cho nó một tệp lớn hoặc nhiều tài liệu và thảo luận tất cả cùng nhau, mà không lo lắng rằng AI sẽ "gãy" do quy mô.

ForkLog đã kiểm tra khả năng lập trình theo văn bản nhắc. ChatGPT đã hoàn thành nhiệm vụ nhanh chóng, hiệu quả của công cụ đã cung cấp cần được kiểm tra.

Dữ liệu: ForkLog.## Chế độ «nghĩ» mạnh mẽ

Sau khi sửa chữa định tuyến, chế độ suy luận đã bắt đầu hoạt động bình thường. Khi cần phân tích chi tiết hoặc phân tích nhiều bước, mô hình tự động kích hoạt thuật toán tiên tiến.

Người dùng Plus có thể chọn chế độ GPT-5 Thinking để có chất lượng phản hồi tối đa. Trong trường hợp này, mạng nơ-ron thực sự cho thấy kết quả tốt: nó giải quyết được các nhiệm vụ phức tạp và sáng tạo.

Khả năng đa phương thức

Một trong những điểm khác biệt quan trọng của GPT-5 là sự tích hợp sâu sắc các loại dữ liệu khác nhau. Nếu GPT-4 bị giới hạn ở phiên bản đa phương tiện (phiên bản Vision có thể thấy hình ảnh, và giọng nói là chế độ riêng biệt), thì GPT-5 ngay lập tức hiểu văn bản, hình ảnh và giọng nói trong khuôn khổ của một mô hình thống nhất.

Chế độ giọng nói cải tiến trong GPT-5 có khả năng tạo ra giọng nói tự nhiên hơn, làm việc với các mô hình giọng nói tùy chỉnh và thay đổi âm điệu/tốc độ theo yêu cầu của người dùng.

Ví dụ, bạn có thể yêu cầu "nói chậm hơn và nhẹ nhàng hơn" - và AI sẽ thích ứng. Tại OpenAI, họ đã xác nhận rằng động cơ giọng nói tiêu chuẩn cũ sẽ bị tắt, nhường chỗ cho những giọng nói mới, tiên tiến hơn.

Người dùng Plus giờ đây có thể trò chuyện "trực tiếp" với ChatGPT gần như theo thời gian thực, điều này đã được nhiều người thích. Tuy nhiên, điều quan trọng là nhấn mạnh rằng ngay cả với GPT-4, không có vấn đề đáng kể nào trong giao tiếp.

Cả hai mô hình vẫn không thể ngắt lời và "chen vào" cuộc đối thoại. Nếu đặt câu hỏi cho mạng nơ-ron trong khi đang ở giữa một vài người đang giao tiếp độc lập với nhau, bạn sẽ không nhận được câu trả lời.

Ngoài ra, GPT-5 đã cải thiện khả năng làm việc với hình ảnh: nó phân tích dữ liệu hình ảnh tốt hơn, có khả năng mô tả ảnh, đồ thị, hỗ trợ cho các ảnh chụp màn hình, v.v.

Nói chung, đa phương thức có thể được coi là một trong những tính năng chính của GPT-5. Ở đây có thể thấy một bước tiến lớn, chứ không chỉ là cải thiện tốc độ. GPT-5 có thể mô tả một bức ảnh, đọc văn bản từ hình ảnh, phân tích đồ thị hoặc biểu đồ, giải thích meme, và giúp nội dung của ảnh chụp màn hình một cách chính xác hơn.

Xuất

GPT-5 không phải là một cuộc cách mạng, không phải AGI, nhưng là một bước tiến rõ rệt. Mô hình đã trở nên thông minh hơn ở một số tiêu chí, nhưng đã mất đi một phần "tính người". Điểm mạnh là hiệu quả, độ chính xác, khả năng đa phương tiện. Điểm yếu là sự khô khan, những hạn chế, lỗi ở giai đoạn đầu.

Mạng nơ-ron đang phát triển, các lỗi được khắc phục, vì vậy GPT-5 chắc chắn sẽ trở thành một trợ lý không thể thiếu hàng ngày, giống như GPT-4o trước đó.

Tuy nhiên, bài kiểm tra với cốc ChatGPT vẫn không thành công.

Dữ liệu: ForkLog. Từ những ấn tượng chung: GPT-5 không đáp ứng được những hứa hẹn của OpenAI. Sam Altman và đội ngũ của ông rõ ràng đã "quá phấn khích" về việc ra mắt. Đây là một bước tiến tới AGI, nhưng có thể gọi nó là "đáng kể" không, và mô hình này có phải là "tốt nhất thế giới" không?

Thay vì một phép màu, người dùng đã nhận được một sự cải thiện tương đối khiêm tốn. GPT-5 đáng lẽ nên được gọi là GPT-4.2 hoặc 4.5, thì kỳ vọng của cộng đồng có thể được đáp ứng.

GPT-6.82%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)