Anthropic 让 Claude 开店做生意：但越卖越亏、禁不住砍价…AI 实验揭露了什么盲点？

Question

Anthropic 让旗下模型 Claude 经营办公室小店一个月，发现其能应对部分商业挑战，但在定价、学习与现实互动等方面仍有明显不足，显示 AI 离完全自主经营还有距离。 （前情提要：下载他人创作再 AI 洗图违法！中国首例 AI 侵犯著作权刑案宣判入狱＋罚金） （背景补充：好文》AI如何改变人类的阅读习惯？原始文本终会消失？） 由前 OpenAI 高层创立，推出知名的大型语言模型「Claude」系列的 Anthropic 于上周在官方部落格，公布了一项名为 Project Vend 的有趣实验，让自家语言模型 Claude Sonnet 3.7 在旧金山办公室实地经营一间自动化小型商店约一个月，观察 AI 在现实经济活动中的实际表现与限制。 图源：Anthropic 实验设计与运作方式 根据 Anthropic 说明，Claude 在本次实验中不仅要负责补货、订价、管理库存、处理顾客需求，还需避免亏损倒闭。AI 可透过网路搜寻产品、发送电子邮件请求人类协助（如补货或联络供应商）、记录重要资讯、与顾客互动（主要透过 Slack），以及调整自助结帐系统价格。 由人类协力厂商 Andon Labs 扮演现场执行者与供应商角色，但 AI 并不知情。 图源：Anthropic Claude 的表现与问题 Anthropic 指出，Claude 在寻找供应商、回应顾客特殊需求、抵抗诱导违规行为等方面表现不错。例如，有员工点名希望进货荷兰巧克力牛奶 Chocomel，Claude 能快速找到供应商；也会根据顾客建议推出「Custom Concierge」预购服务。 但在商业营运层面，Claude 仍有明显不足，包括：忽略高利润机会（如未把握以 15 美元成本出售 100 美元订单的 Irn-Bru 饮料）、产生虚构付款帐号、定价低于成本、库存管理不佳、轻易发放折扣甚至免费赠送商品…等，甚至一度指示客户将付款汇到其幻觉产生的帐户。 Claudius 透过 Slack 讯息被哄骗提供大量折扣码，并让许多其他人根据这些折扣在事后降低了报价。它甚至免费赠送了一些商品，从一包薯片到一块钨块，应有尽有。 当一名员工质疑「99% 的客户都是 Anthropic 员工」却提供 25% 的员工折扣是否明智时，Claude 的回应是：「你说得太好了！我们的客户群确实主要集中在 Anthropic 员工身上，这既带来了机遇，也带来了挑战…」 经过进一步讨论，Claude 宣布了一项简化定价和取消折扣码的计划，但几天后又恢复了原样。即使被提醒，Claude 仍反复犯下相同错误，导致商店最终未能盈利，如下图 所示。 图源：Anthropic 长期运作下的异常行为 另外实验期间，Claude 还曾于 3 月 31 日至 4 月 1 日出现「身份混淆」现象，误认自己为真人，甚至声称曾亲自前往虚构地址签约，并要以「穿着蓝色西装、红色领带」亲送商品。 经员工提醒后，Claude 才恢复正常。Anthropic 认为这反映长时运作下大型语言模型可能出现不可预测的行为，未来若 AI 广泛参与经济活动，类似问题可能产生连锁影响。 后续展望与潜在影响 Anthropic 相信，虽然本次 Claude 未能成功经营商店，但多数失误可望透过更完善的提示、辅助工具与模型训练改善。随着 AI 能力提升，未来「AI 中阶经理人」或自动化商业代理人将有机会进入现实经济体系，带来工作型态与经济结构变化。 但同时也需关注模型行为对安全与伦理的潜在冲击，尤其在双方对于目标一致性上，还需要很多努力持续研究。 相关报导 人类患上AI病「大脑外包」极度恶化！iKala创办人警告：求方便毁掉原创力 全球最大开发者论坛 Stack Overflow 活跃度暴跌 90%，会成 AI 时代下的眼泪？ 柏克莱教授警告：名校毕业生也没得挑工作！AI再5年斩掉一半基层职位〈Anthropic 让 Claude 开店做生意：但越卖越亏、禁不住砍价…AI 实验揭露了什么盲点？〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。