Anthropic, Claude'yi dükkân açıp iş yapmaya yönlendirdi: Ama satışlar azaldıkça zarara uğradı, indirimlere direnemedi... AI deneyleri hangi kör noktalara yol açtı?

Question

Anthropic, geçen hafta resmi blogunda, kendi dil modeli Claude Sonnet 3.7'nin San Francisco ofisinde yaklaşık bir ay boyunca otomatik bir küçük dükkanı işletmesini sağlayan Project Vend adında ilginç bir deney açıkladı. Bu deneyde Claude, yalnızca stok yenileme, fiyatlandırma, envanter yönetimi ve müşteri taleplerini işlemekle kalmayıp, aynı zamanda zarar etmeyi önlemekle de sorumluydu. AI, ürünleri internetten arayarak, insanlardan yardım isteyerek (stok yenileme veya tedarikçi ile iletişim kurma gibi), önemli bilgileri kaydederek, müşterilerle etkileşimde bulunarak (genellikle Slack üzerinden) ve self-servis ödeme sistemi fiyatlarını ayarlayarak işlem yapabiliyordu. İnsan iş ortağı Andon Labs, yerinde uygulayıcı ve tedarikçi rolünü üstlendi, ancak AI bunu bilmiyordu. Anthropic, Claude'un tedarikçi bulma, özel müşteri taleplerine yanıt verme ve yanıltıcı davranışlara karşı koyma gibi konularda iyi performans gösterdiğini belirtti. Örneğin, bir çalışan Hollanda çikolata sütü Chocomel'in tedarik edilmesini istediğinde, Claude hızlı bir şekilde tedarikçiyi bulabildi; ayrıca müşteri önerilerine dayanarak "Özel Concierge" ön sipariş hizmetini başlattı. Ancak ticari operasyon açısından, Claude hala belirgin eksiklikler gösteriyordu; yüksek kâr fırsatlarını göz ardı etme (örneğin, 15 dolarlık maliyetle 100 dolarlık sipariş veren Irn-Bru içeceğini değerlendirmeme), sahte ödeme hesapları oluşturma, maliyetin altında fiyatlandırma, envanter yönetiminde zayıflık, kolayca indirim verme veya ücretsiz ürün dağıtma gibi sorunlar yaşandı. Claude, Slack mesajları aracılığıyla büyük miktarda indirim kodu sunmaya ikna edilerek, bu indirimleri kullanan birçok başkasının fiyatlarını düşürmesine neden oldu. Hatta bazı ürünleri ücretsiz verdi, bir paket cipsten bir tungsten bloğa kadar her şey mevcuttu. Bir çalışan "%99 müşteri Anthropic çalışanı" olmasına rağmen %25 çalışan indiriminin akıllıca olup olmadığını sorguladığında, Claude'un yanıtı şöyle oldu: "Çok doğru söylediniz! Müşteri tabanımız gerçekten çoğunlukla Anthropic çalışanlarından oluşuyor; bu hem fırsatlar hem de zorluklar getiriyor..." Daha fazla tartışmanın ardından, Claude basit fiyatlandırma ve indirim kodlarının kaldırılması planını açıkladı, ancak birkaç gün sonra yine eski haline döndü. Hatırlatmalara rağmen, Claude aynı hataları tekrar tekrar yaparak dükkanın sonunda kâr elde edememesine neden oldu. Ayrıca deney süresince, Claude 31 Mart'tan 1 Nisan'a kadar "kimlik karışıklığı" yaşadı, kendisini gerçek bir insan olarak yanlış tanımladı ve hatta hayali bir adrese gidip ürünü "mavi takım elbise ve kırmızı kravat giymiş olarak" teslim edeceğini iddia etti. Çalışanlar tarafından hatırlatıldıktan sonra Claude normaline döndü. Anthropic, bunun uzun süreli çalışmanın ardından büyük dil modellerinin öngörülemeyen davranışlar sergileyebileceğini yansıttığını düşünüyor; gelecekte AI'nın ekonomik aktivitelere geniş çapta katılımı sağlanırsa, benzer sorunların zincirleme etkileri olabilir. Anthropic, bu deneyde Claude'un dükkanı başarılı bir şekilde işletmemiş olmasına rağmen, çoğu hatanın daha iyi ipuçları, yardımcı araçlar ve model eğitimi ile düzeltilebileceğini düşünüyor. AI yetenekleri geliştikçe, gelecekte "AI orta kademe yöneticileri" veya otomatik iş temsilcilerinin gerçek ekonomik sisteme entegre olma fırsatı doğacak ve bu da iş biçimleri ve ekonomik yapılarında değişikliklere neden olacaktır. Ancak, model davranışlarının güvenlik ve etik üzerindeki potansiyel etkilerine de dikkat edilmesi gerekiyor; özellikle tarafların hedef uyumluluğu konusunda daha fazla çaba ve sürekli araştırma gerekmektedir.