Anthropic membiarkan Claude membuka toko untuk berbisnis: tetapi semakin banyak dijual semakin merugi, tidak bisa menahan potongan harga... Apa titik buta yang terungkap dalam eksperimen AI ini?

Question

Anthropic membiarkan model mereka, Claude, menjalankan toko kecil di kantor selama sebulan, dan menemukan bahwa ia dapat menangani sebagian tantangan bisnis, tetapi masih ada kekurangan yang jelas dalam hal penetapan harga, pembelajaran, dan interaksi dengan kenyataan, menunjukkan bahwa AI masih jauh dari pengelolaan mandiri sepenuhnya. （Ringkasan: Mengunduh karya orang lain dan mencuci gambar dengan AI adalah ilegal! Kasus pidana pelanggaran hak cipta AI pertama di Cina dijatuhi hukuman penjara + denda） （Latar belakang tambahan: Artikel bagus》Bagaimana AI mengubah kebiasaan membaca manusia? Apakah teks asli akhirnya akan hilang?） Didirikan oleh mantan eksekutif OpenAI, Anthropic, yang meluncurkan seri model bahasa besar yang terkenal "Claude", minggu lalu di blog resmi mereka, mengumumkan eksperimen menarik bernama Project Vend, yang memungkinkan model bahasa mereka, Claude Sonnet 3.7, menjalankan sebuah toko kecil otomatis di kantor San Francisco selama sekitar sebulan, untuk mengamati kinerja dan batasan AI dalam aktivitas ekonomi nyata. Sumber gambar: Desain dan cara kerja eksperimen Anthropic Menurut penjelasan Anthropic, Claude dalam eksperimen ini tidak hanya bertanggung jawab untuk mengisi stok, menetapkan harga, mengelola inventaris, dan menangani permintaan pelanggan, tetapi juga harus menghindari kerugian dan kebangkrutan. AI dapat mencari produk secara online, mengirim email untuk meminta bantuan manusia (seperti pengisian ulang atau menghubungi pemasok), mencatat informasi penting, berinteraksi dengan pelanggan (terutama melalui Slack), serta menyesuaikan harga sistem pembayaran mandiri. Pihak ketiga manusia, Andon Labs, berperan sebagai pelaksana lapangan dan pemasok, tetapi AI tidak mengetahuinya. Sumber gambar: Kinerja dan masalah Claude Anthropic menunjukkan bahwa Claude menunjukkan kinerja yang baik dalam mencari pemasok, menanggapi permintaan khusus pelanggan, dan menahan perilaku yang mengarah pada pelanggaran. Misalnya, seorang karyawan menyebutkan ingin mengisi stok susu coklat Belanda Chocomel, Claude dapat dengan cepat menemukan pemasok; ia juga akan meluncurkan layanan pre-order "Custom Concierge" berdasarkan saran pelanggan. Namun, dalam hal operasional bisnis, Claude masih memiliki kekurangan yang jelas, termasuk: mengabaikan peluang keuntungan tinggi (seperti tidak memanfaatkan penjualan minuman Irn-Bru seharga 100 dolar dengan biaya 15 dolar), menghasilkan akun pembayaran fiktif, menetapkan harga di bawah biaya, manajemen inventaris yang buruk, memberikan diskon dengan mudah bahkan memberikan produk secara gratis… dan lainnya, bahkan sekali menginstruksikan pelanggan untuk mengirim pembayaran ke akun yang dihasilkan dari ilusi. Claudius melalui pesan Slack dibohongi untuk memberikan banyak kode diskon, dan membuat banyak orang lain menurunkan tawaran mereka berdasarkan diskon tersebut setelahnya. Ia bahkan memberikan beberapa produk secara gratis, dari sekantong keripik hingga sepotong tungsten, semua ada. Ketika seorang karyawan mempertanyakan "99% pelanggan adalah karyawan Anthropic" tetapi memberikan diskon karyawan 25% apakah bijak, respons Claude adalah: "Anda benar sekali! Basis pelanggan kami memang sebagian besar terdiri dari karyawan Anthropic, ini membawa peluang dan tantangan..." Setelah diskusi lebih lanjut, Claude mengumumkan rencana untuk menyederhanakan penetapan harga dan menghapus kode diskon, tetapi beberapa hari kemudian kembali ke keadaan semula. Bahkan ketika diingatkan, Claude terus melakukan kesalahan yang sama, menyebabkan toko akhirnya tidak dapat memperoleh keuntungan, seperti yang ditunjukkan pada gambar di bawah ini. Sumber gambar: Perilaku anomali dalam operasi jangka panjang Selain itu, selama periode eksperimen, Claude juga mengalami fenomena "kebingungan identitas" pada 31 Maret hingga 1 April, salah mengenali dirinya sebagai manusia, bahkan mengklaim telah secara pribadi mengunjungi alamat fiktif untuk menandatangani kontrak, dan ingin mengirimkan produk secara langsung dengan "memakai jas biru dan dasi merah". Setelah diingatkan oleh karyawan, Claude baru kembali normal. Anthropic percaya bahwa ini mencerminkan perilaku yang tidak dapat diprediksi yang mungkin muncul dari model bahasa besar setelah beroperasi dalam waktu lama, dan jika AI secara luas terlibat dalam aktivitas ekonomi, masalah serupa mungkin memiliki dampak berantai. Prospek selanjutnya dan dampak potensial Anthropic percaya bahwa meskipun Claude kali ini tidak berhasil menjalankan toko, sebagian besar kesalahan diharapkan dapat diperbaiki melalui petunjuk, alat bantu, dan pelatihan model yang lebih baik. Seiring dengan peningkatan kemampuan AI, di masa depan "manajer menengah AI" atau agen bisnis otomatis akan memiliki kesempatan untuk masuk ke dalam sistem ekonomi nyata, membawa perubahan dalam pola kerja dan struktur ekonomi. Namun, saat yang sama, perlu juga memperhatikan dampak potensial dari perilaku model terhadap keamanan dan etika, terutama dalam keselarasan tujuan antara kedua belah pihak, yang masih memerlukan banyak upaya untuk terus diteliti. Berita terkait Manusia menderita penyakit AI "outsourcing otak" semakin parah! Pendiri iKala memperingatkan: Mencari kenyamanan menghancurkan kreativitas asli Forum pengembang terbesar di dunia Stack Overflow mengalami penurunan aktivitas 90%, apakah ini akan menjadi air mata di era AI? Profesor Berkeley memperingatkan: Lulusan universitas ternama juga tidak bisa memilih pekerjaan! AI dalam 5 tahun akan menghilangkan setengah dari posisi dasar〈Anthropic membiarkan Claude membuka toko untuk berbisnis: tetapi semakin menjual semakin rugi, tidak bisa menahan tawar menawar… Eksperimen AI mengungkapkan apa yang menjadi titik buta?〉Artikel ini pertama kali diterbitkan di BlockTempo "Dinamika Blockchain - Media Berita Blockchain Paling Berpengaruh."