Model OpenAI terkuat o3 'Dituduh Curang' Diduga Memperoleh Jawaban Uji Coba dengan Hak Istimewa, Kemampuan Matematika Palsu?

Question

Baru-baru ini, kontraktor Epoch AI, organisasi nirlaba bernama 'Meemi' di forum Less Wrong, membocorkan informasi bahwa pengembang ChatGPT, OpenAI, diam-diam mendanai platform pengujian matematika FrontierMath untuk mengembangkan kecerdasan buatan (AI) dan memiliki akses khusus ke soal dan jawaban uji coba FrontierMath, membantu model terbaru mereka, o3, meraih skor tinggi. (Latar belakang: Ingin mengendalikan ChatGPT? Musk menulis surat kepada Jaksa Agung, meminta lelang paksa saham OpenAI) Pengembang ChatGPT, OpenAI, dikabarkan melakukan pemalsuan model baru-baru ini, yang menimbulkan diskusi luas di komunitas teknologi. Informasi ini bermula dari artikel yang diposting oleh kontraktor organisasi nirlaba Epoch AI bernama 'Meemi' di forum Less Wrong. Artikel tersebut mengungkapkan bahwa FrontierMath, platform pengujian matematika yang digunakan untuk menguji kecerdasan buatan (AI), tidak hanya pernah didanai oleh OpenAI, tetapi FrontierMath juga memberi akses khusus kepada OpenAI untuk model o3 yang baru dirilis. Bacaan lanjutan: OpenAI meluncurkan model o3! Kemampuan penalaran ditingkatkan lagi, membuka jalan bagi AI generasi berikutnya Meemi menuduh bahwa OpenAI telah memiliki soal dan jawaban FrontierMath sebelum menguji model o3 Meemi menyatakan bahwa banyak matematikawan yang membuat soal untuk FrontierMath dan kontraktor tidak mengetahui pendanaan dari OpenAI secara sukarela: Matematikawan yang membuat soal untuk FrontierMath tidak (secara aktif) diberi tahu tentang pendanaan dari OpenAI. Kontraktor diminta untuk merahasiakan soal dan jawaban, termasuk larangan menggunakan Overleaf, Colab, atau berdiskusi melalui email, serta menandatangani NDA (protokol kerahasiaan), untuk memastikan kerahasiaan soal dan mencegah kebocoran. Selain itu, kontraktor juga tidak diberi tahu tentang pendanaan OpenAI pada tanggal 20 Desember. Saya yakin, bahkan beberapa penulis artikel yang ditandatangani juga tidak mengetahui tentang pendanaan OpenAI. Meemi juga menambahkan bahwa ia memiliki sumber informasi tidak langsung yang menunjukkan bahwa OpenAI telah memiliki soal dan jawaban FrontierMath sebelum pengujian: Saat ini, Epoch AI atau OpenAI belum secara terbuka menyatakan apakah OpenAI dapat memperoleh soal, jawaban, atau solusi ini. Saya memiliki sumber informasi tidak langsung yang menunjukkan bahwa OpenAI memang memiliki soal dan jawaban ini, dan menggunakannya untuk memvalidasi uji coba. Saya tidak yakin apakah Epoch AI dan OpenAI memiliki protokol pembatasan untuk menggunakan kumpulan data ini untuk pelatihan, tetapi ada beberapa tanda yang menunjukkan bahwa protokol semacam itu tidak ada. Apa itu FrontierMath? Menurut informasi yang diperoleh, FrontierMath adalah Benchmark matematika baru yang diluncurkan bersama oleh Epoch AI dan lebih dari 60 matematikawan dari seluruh dunia, termasuk profesor, penyusun soal IMO, dan penerima hadiah Fields. Soal matematika ini mencakup semua cabang utama dari penelitian matematika saat ini - dari masalah yang intensif komputasi dalam teori bilangan dan analisis real hingga masalah abstrak dalam geometri aljabar dan teori grup. Salah satu pendiri Epoch AI, Tamay Besiroglu, meminta maaf sementara kontroversi ini sedang hangat, dengan menyatakan: Kami melakukan kesalahan dengan tidak segera mengungkapkan keterlibatan OpenAI dalam FrontierMath. Kontrak kami melarang kami untuk mengungkapkannya sampai sekitar o3. Jika dilihat dari belakang, seharusnya kami benar-benar mendorong untuk transparansi lebih awal. Kami mengakui hal ini dan akan berusaha lebih baik. Besiroglu juga menambahkan dalam blognya bahwa meskipun OpenAI memiliki akses ke FrontierMath, mereka memiliki 'protokol lisan' dengan Epoch AI yang mencegah penggunaan kumpulan soal FrontierMath untuk melatih model AI. Selain itu, Epoch AI juga memiliki seperangkat data cadangan yang digunakan untuk memverifikasi hasil uji coba FrontierMath Benchmark secara independen. Kami membuat kesalahan dengan tidak mengungkapkan keterlibatan OpenAI dalam FrontierMath lebih awal. Kontrak kami melarang kami hingga sekitar o3. Jika dilihat dari belakang, seharusnya kami benar-benar mendorong untuk transparansi lebih awal. Kami mengakui hal ini dan akan berusaha lebih baik. - Tamay Besiroglu (@tamaybes) 19 Januari 2025 Berita Terkait Arthur Hayes: Saya tidak yakin Trump akan membentuk cadangan BTC, Probabilitas Polymarket untuk lulus dalam 100 hari turun menjadi 36% Trump membuka kartu? Proyek Keuangan Desentralisasi keluarga WLFI naikkan posisi puluhan ribu dolar untuk BTC, Ethereum, AAVE, ONDO.. El Salvador mendapat pinjaman untuk terus naikkan posisi 12 BTC, mengabaikan protokol IMF Artikel <OpenAI Model Terkuat o3 'Diduga Menyontek' dengan Akses Khusus untuk Menguji Jawaban, Kemampuan Matematika Dipertanyakan?> pertama kali diterbitkan di BlockTempo dari Dynamic Block - Media Berita Blok yang Paling Berpengaruh.