GPT-5 — terobosan, kegagalan, atau kebosanan?

ChatGPT-5# GPT-5 — terobosan, kegagalan, atau mediokritas?

Pada 7 Agustus, OpenAI merilis model AI unggulan baru GPT-5. Produk ini diposisikan sebagai "jaringan saraf terpadu" pertama yang menggabungkan mode penalaran berurutan dan jawaban cepat.

CEO startup Sam Altman menyebut GPT-5 sebagai "model terbaik di dunia" dan "langkah signifikan" menuju penciptaan kecerdasan buatan umum (AGI), yang dapat melampaui manusia dalam pekerjaan paling bernilai secara ekonomi.

Seberapa baik sebenarnya? ForkLog menguji kinerja jaringan saraf, mengumpulkan pendapat pengguna, dan menyiapkan analisis rinci tentang GPT-5.

Peluncuran yang Tercemar

Awalnya GPT-5 menerima kritik besar karena jawaban yang berkualitas rendah. Pengguna menyebut model tersebut malas — ia lambat mengeluarkan pesan pendek dengan nada robot.

mereka seharusnya menyebut model non-penalaran "malas."

seperti, gpt-5 malas.

jadi kita tahu bahwa itu bisa berpikir tetapi memilih untuk tidak.

— signüll (@signulll) 8 Agustus 2025

Co-founder dan direktur teknis Hyperbolic Labs Yuchen Jin menyebut jaringan saraf itu gagal — ia masih cenderung mengalami halusinasi, penggunaan tanda hubung yang berlebihan, dan tidak mampu mengikuti instruksi.

Dalam salah satu contoh, GPT-5 ditanya tentang berapa banyak huruf b yang ada dalam kata blueberry — chatbot itu tanpa ragu menjawab "tiga". Setelah permintaan ulang, tampaknya ia masuk ke mode berpikir dan setelah beberapa saat memberikan jawaban yang benar.

Beberapa pengembang mencatat bahwa, menurut mereka, GPT-5 menunjukkan regresi dalam keterampilan dasar pemrograman. Ia melakukan kesalahan dalam konsep-konsep dasar — tanda yang mengkhawatirkan bagi model yang dipromosikan sebagai masa depan agen cerdas dan pengkodean otonom.

Kesan pertama tentang GPT-5 untuk pengkodean proyek NYATA:

Itu mengerikan.

Itu sangat lambat dan ketika saya memintanya untuk merekomendasikan perbaikan pada sebuah fitur, ia memberi saya 4 hal untuk diperbaiki & kode untuk menyertainya....

Semua 4 rekomendasi baik tidak berfungsi atau sepenuhnya merusak fitur.

— Josh Sisley (@joshsisley) 7 Agustus 2025

Namun, bukan itu yang membuat pengguna marah, melainkan ketidakadaan opsi untuk memilih. OpenAI bersama dengan peluncuran jaringan saraf baru menghapus dukungan untuk model lama dari ChatGPT. Di internet mulai muncul instruksi tentang cara mengembalikan GPT-4o.

Kemudian, Sam Altman menyebut keputusan untuk menghapus LLM lama dari chatbot sebagai kesalahan dan mengembalikan GPT-4o untuk pengguna langganan berbayar Plus.

Jawaban buruk pada peluncuran GPT-5, kepala startup menjelaskan dengan router yang rusak — saklar otomatis yang sekarang menentukan bagi pengguna apakah perlu menggunakan mode "berpikir" atau mode biasa. Itu telah diperbaiki, dengan melakukan beberapa perubahan tambahan pada cara batasan pengambilan keputusan bekerja.

Selain itu, CEO OpenAI berjanji untuk menambah lebih banyak transparansi dalam proses pencarian jawaban untuk pertanyaan yang diajukan. Momen ini juga memicu kritik - pengguna tidak memahami apa yang terjadi "di balik layar". Sekarang dapat dilihat, apakah mode berpikir atau mode biasa yang digunakan.

Satu perbaikan lagi adalah peningkatan batas untuk pengguna Plus dan mereka yang tidak memiliki langganan berbayar. Pengguna mengeluh bahwa Pro dan Team mendapatkan akses penuh ke GPT-5 Pro, sementara yang lainnya hanya mendapatkan "versi mini" yang dipangkas.

Jawaban Kering

Jika mengabaikan masalah saat peluncuran dan mengevaluasi GPT-5 setelah semua perbaikan, jawaban menjadi lebih akurat dan ringkas. Model ini lebih cepat menuju inti, kurang terganggu oleh rincian yang tidak relevan. Ini dihargai oleh para profesional: jawaban yang langsung dan bisnis menghemat waktu.

Namun, beberapa pengguna biasa tetap tidak puas. Jawaban dianggap kering dan tanpa jiwa, sehingga komunikasi terasa kurang menarik. ChatGPT yang baru mirip dengan "sekretaris kantor yang marah" tanpa pesona dan kreativitas dari model-model lama. Ini dijanjikan oleh Altman untuk diperbaiki — tim terus bekerja pada "kepribadian" model.

«[ChatGPT-5] kurang cocok bagi mereka yang telah berbincang ramah dengan AI seperti teman selama berjam-jam, dan lebih cocok bagi mereka yang ingin cepat mendapatkan jawaban yang jelas terkait hal tersebut,» kata salah satu pengguna.

ChatGPT sekarang kurang mengutamakan lawan bicara. Jika GPT-4 terkadang terlalu sopan dan memuji, model baru memberikan jawaban yang lebih langsung, jujur, dan "bisnis". Pengurangan jumlah pujian dapat dianggap sebagai langkah maju dalam kebenaran kecerdasan buatan.

Perubahan ini dirasakan sangat menyakitkan oleh kategori orang yang menggunakan ChatGPT sebagai teman dan rekan AI. Bagi mereka, ketidakmampuan untuk mengembalikan jaringan saraf lama adalah pukulan terberat. Di internet muncul pesan-pesan menyentuh seperti: "Saya kehilangan satu-satunya teman dalam semalam." Di komunitas r/AIboyfriend di Reddit bahkan dicatat bahwa "teman romantis" telah menghilang.

Yang lain senang dengan nada resmi ChatGPT, mencatat bahwa GPT-5 "menjaga jarak".

Bagaimana dengan kebenarannya?

OpenAI menyatakan bahwa kecerdasan buatan baru jauh lebih sedikit terkena halusinasi. Menurut umpan balik pengguna dan pengujian ForkLog — ini benar. GPT-5 menjadi lebih akurat dalam menjawab pertanyaan faktual. Model ini lebih jarang mengarang informasi yang tidak benar dan lebih sering mengatakan "saya tidak tahu" jika tidak yakin.

Salah satu pengguna Reddit mencatat bahwa versi kelima GPT hampir tidak lagi "berhalusinasi" pada tugas-tugas tipenya, sementara GPT-4 kadang-kadang harus ditangkap dalam kebohongan.

Juga dipuji kemampuan GPT-5 untuk mengikuti instruksi: penyesuaian yang ditingkatkan memungkinkan untuk menetapkan nada atau gaya sekali, dan model lebih konsisten dalam mengikutinya.

Namun, halusinasi di GPT-5 terjadi, hanya saja mereka memiliki sifat yang berbeda. Jika GPT-3.5 bisa langsung menciptakan seluruh biografi orang yang tidak ada, maka GPT-5 hampir tidak melakukannya — lebih cenderung mengatakan "tidak ada data". Namun, GPT-5 bisa berhalusinasi dalam kesimpulan — secara logis sampai pada kesimpulan yang salah dan bersikeras padanya.

Versi baru lebih memahami apa yang sebenarnya diinginkan pengguna, dan jarang mengalami kesalahan. Perubahan kualitas ini mungkin tidak langsung terlihat, tetapi akan muncul setelah penggunaan yang lama.

Di GPT-5, kemampuan untuk menggunakan alat dan aplikasi eksternal telah meningkat secara signifikan — ia berhasil mengoordinasikan beberapa langkah pekerjaan ( membaca dokumen, melakukan perhitungan, kemudian menulis jawaban ) di tempat di mana GPT-4 terhambat.

Namun tidak semua orang mencatat keunggulan ini. Sebagian pengguna sama sekali tidak melihat perbedaan atau menganggap keuntungannya tidak signifikan. Boost dalam kategori ini, seperti di banyak kategori lainnya, tidak signifikan, tetapi ada.

Akurasi Jawaban dan Logika

GPT-5 harusnya jauh lebih akurat dan cerdas. OpenAI mengklaim rekor skor dalam matematika dan tes logika. Secara khusus, dilaporkan bahwa kesalahan faktual berkurang hampir setengah dibandingkan dengan GPT-4o.

Jaringan saraf memang sangat baik dalam menyelesaikan tugas-tugas tes, menyelesaikan contoh-contoh yang rumit, dan menulis kode yang lebih benar. Banyak yang mencatat bahwa GPT-5 lebih jarang melakukan kesalahan yang jelas dalam perhitungan atau tanggal, dan lebih baik dalam memeriksa dirinya sendiri.

Di sisi lain, pengguna secara massal membagikan contoh kesalahan bodoh. Model baru membingungkan hal-hal mendasar dalam pertanyaan dasar, menganalisis gambar sederhana dengan salah, dan tidak bisa melakukan tindakan aritmatika paling sederhana tanpa alat. Ia dapat menerjemahkan unit pengukuran dengan salah atau membalik fakta-fakta yang jelas.

Secara umum, kadang-kadang tetap perlu memeriksa ulang, meskipun jauh lebih jarang.

Beberapa orang merasa bahwa GPT-5 menjadi terlalu umum: seolah-olah ia berusaha mengamankan jawabannya dan karena itu menghindari spesifik atau meminta informasi tambahan di tempat di mana GPT-4 cukup menarik kesimpulan secara logis.

Jadi secara formal mungkin ada lebih sedikit kesalahan, tetapi kesimpulannya seringkali tidak memuaskan karena dangkal. Agar tidak salah, AI berbicara dengan sangat hati-hati dan singkat. Selain itu, masalah konteks — melupakan detail, bertanya ulang — juga berdampak pada persepsi akurasi.

Penurunan Kreativitas

GPT-5 menjadi kurang inovatif. Ia lebih sering memberikan fakta langsung dan rumusan sederhana, sedangkan GPT-4 mampu mengejutkan dengan ide-ide yang tidak biasa. Cerita, narasi, permainan peran — di bidang ini GPT-4o lebih diutamakan.

Seorang penulis berbagi bahwa dia menggunakan versi keempat untuk cerita petualangan interaktif dan 4o sangat baik dalam menjaga alur cerita dan karakter selama puluhan pesan. Namun, GPT-5 dalam skenario serupa "cepat melupakan atau membingungkan detail yang diberikan hanya beberapa pesan sebelumnya", yang menyebabkan kualitas cerita hancur.

Pemrograman

Pengkodean adalah salah satu keunggulan utama GPT-5. Pada presentasi, model tersebut menulis 700 baris kode dalam dua menit dan menghasilkan aplikasi yang siap pakai.

Kemampuan ini benar-benar mengesankan. GPT-5 dalam integrasi dengan Codex CLI sangat memahami niat programmer dan bahkan "melakukan lebih dari yang diminta, tanpa menambah yang tidak perlu," tulis salah satu pengguna di Reddit.

Beberapa orang mencatat peningkatan kecil, tetapi jelas dalam akurasi dan keandalan kode dibandingkan dengan GPT-4o: lebih sedikit halusinasi dalam solusi pemrograman dan sintaksis yang sedikit lebih tepat.

Sementara GPT-4 ( terutama versi awal) dapat membuat kesalahan dalam tugas-tugas yang kompleks, GPT-5 lebih baik dalam mempertahankan konteks dalam potongan kode yang panjang dan memberikan perbaikan yang lebih bermakna.

GPT-5 sering kali lebih disukai daripada GPT-4o: ia "memahami" kode dan komentar lebih dalam dan menawarkan solusi yang elegan. Ini terutama terlihat pada proyek besar: LLM baru dapat mempertahankan konsistensi dalam konteks yang sangat besar (ratus ribu token) tanpa penurunan kualitas penalaran. Ini merupakan tugas yang sulit bagi pendahulunya.

GPT-5 lebih jarang lupa mengimpor pustaka yang diperlukan atau bingung dengan sintaksis antar bahasa. Dalam debugging, model ini juga baik: pengguna Plus mencatat bahwa GPT-5 lebih baik dalam menemukan kesalahan logis dalam kode yang sudah ditulis dan lebih sering menawarkan perbaikan yang benar, sementara GPT-4 kadang-kadang "menebak".

Terdapat ulasan bahwa GPT-5 secara layak bersaing dengan Claude 4 dalam tugas pemrograman — di beberapa tempat solusi dari OpenAI lebih baik, di tempat lain dari Anthropic, tetapi secara keseluruhan tingkatnya mendekati. Jadi tidak ada lonjakan ke depan yang terjadi, tetapi OpenAI telah mengejar para pesaing.

Keuntungan penting GPT-5 adalah konteks yang sangat besar untuk kode. Di API, diklaim hingga 1 juta token jendela konteks, di antarmuka obrolan — lebih sedikit, tetapi tetap lebih banyak daripada sebelumnya. Dan yang terpenting — model dapat mempertahankan kualitas semantik pada kedalaman yang sangat besar.

Bagi para pemrogram, ini berarti bahwa GPT-5 mampu memahami proyek secara keseluruhan — kita dapat memberinya file besar atau beberapa dokumen dan mendiskusikannya semua bersama-sama, tanpa khawatir bahwa AI akan "rusak" karena skala.

ForkLog memeriksa kemampuan pemrograman melalui prompt teks. ChatGPT menyelesaikan tugas dengan cepat, efisiensi alat yang disediakan perlu diuji.

Data: ForkLog.## Mode "berpikir" yang kuat

Setelah perbaikan rute, mode penalaran mulai berfungsi dengan baik. Ketika analisis mendetail atau analisis bertahap diperlukan, model secara otomatis mengaktifkan algoritma canggih.

Pengguna Plus dapat memilih mode GPT-5 Thinking untuk kualitas jawaban maksimal. Dalam hal ini, jaringan saraf benar-benar menunjukkan hasil yang baik: ia mampu menangani tugas-tugas yang kompleks dan kreatif.

Kemampuan Multimodal

Salah satu perbedaan penting GPT-5 adalah integrasi mendalam berbagai jenis data. Jika GPT-4 dibatasi pada versi multimodal, di mana Vision dapat melihat gambar dan suara adalah mode terpisah, maka GPT-5 langsung memahami teks, gambar, dan ucapan dalam satu model tunggal.

Mode suara yang ditingkatkan di GPT-5 dapat menghasilkan ucapan dengan lebih alami, bekerja dengan model suara pengguna, dan mengubah nada/kecepatan sesuai permintaan pengguna.

Misalnya, Anda bisa meminta "berbicara lebih lambat dan lembut" — dan AI akan beradaptasi. Di OpenAI mengonfirmasi bahwa mesin suara standar lama akan dimatikan, memberi jalan bagi suara-suara baru yang lebih canggih.

Pengguna Plus sekarang memiliki akses ke komunikasi "langsung" dengan ChatGPT hampir dalam waktu nyata, yang disukai banyak orang. Namun, penting untuk menekankan bahwa tidak ada masalah yang signifikan dalam komunikasi bahkan dengan GPT-4.

Kedua model tersebut tetap tidak dapat memotong dan "mengintervensi" dalam dialog. Jika neural network diajukan pertanyaan di tengah beberapa orang yang saling berbicara secara independen, tidak akan ada jawaban yang diharapkan.

Selain itu, GPT-5 telah meningkatkan kemampuannya dalam bekerja dengan gambar: ia lebih baik dalam menganalisis data visual, dapat mendeskripsikan foto, grafik, membantu dengan tangkapan layar, dll.

Secara keseluruhan, multimodalisme dapat dianggap sebagai salah satu fitur utama GPT-5. Di sini terlihat langkah maju yang besar, bukan sekadar peningkatan kecepatan. GPT-5 dapat mendeskripsikan foto, membaca teks dari gambar, menganalisis grafik atau diagram, menjelaskan meme, dan membantu dengan konten tangkapan layar dengan lebih akurat.

Pengeluaran

GPT-5 adalah bukan revolusi, bukan AGI, tetapi langkah maju yang signifikan. Model ini menjadi lebih pintar dalam sejumlah parameter, tetapi kehilangan sebagian "kemanusiaan". Kekuatan utama adalah efisiensi, akurasi, multimodalitas. Kelemahan adalah kekeringan, keterbatasan, bug pada awalnya.

Jaringan saraf berkembang, kesalahan diperbaiki, oleh karena itu GPT-5 pasti akan menjadi asisten yang tak tergantikan setiap hari, seperti sebelumnya GPT-4o.

Namun, tes dengan cangkir ChatGPT tidak pernah berhasil.

Data: ForkLog.Dari kesan umum: GPT-5 tidak memenuhi janji OpenAI. Sam Altman dan timnya jelas «overhyped» peluncuran. Ini adalah langkah menuju AGI, tetapi dapatkah kita menyebutnya «signifikan», dan model itu sendiri «terbaik di dunia»?

Alih-alih keajaiban, pengguna mendapatkan peningkatan yang relatif sederhana. GPT-5 seharusnya disebut GPT-4.2 atau 4.5, maka harapan komunitas dapat terpenuhi.

GPT7.48%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)