Anthropic 让旗下模型 Claude 经营办公室小店一个月,发现其能应对部分商业挑战,但在定价、学习与现实互动等方面仍有明显不足,显示 AI 离完全自主经营还有距离。 (前情提要:下载他人创作再 AI 洗图违法!中国首例 AI 侵犯著作权刑案宣判入狱+罚金) (背景补充:好文》AI如何改变人类的阅读习惯?原始文本终会消失?) 由前 OpenAI 高层创立,推出知名的大型语言模型「Claude」系列的 Anthropic 于上周在官方部落格,公布了一项名为 Project Vend 的有趣实验,让自家语言模型 Claude Sonnet 3.7 在旧金山办公室实地经营一间自动化小型商店约一个月,观察 AI 在现实经济活动中的实际表现与限制。 图源:Anthropic 实验设计与运作方式 根据 Anthropic 说明,Claude 在本次实验中不仅要负责补货、订价、管理库存、处理顾客需求,还需避免亏损倒闭。AI 可透过网路搜寻产品、发送电子邮件请求人类协助(如补货或联络供应商)、记录重要资讯、与顾客互动(主要透过 Slack),以及调整自助结帐系统价格。 由人类协力厂商 Andon Labs 扮演现场执行者与供应商角色,但 AI 并不知情。 图源:Anthropic Claude 的表现与问题 Anthropic 指出,Claude 在寻找供应商、回应顾客特殊需求、抵抗诱导违规行为等方面表现不错。例如,有员工点名希望进货荷兰巧克力牛奶 Chocomel,Claude 能快速找到供应商;也会根据顾客建议推出「Custom Concierge」预购服务。 但在商业营运层面,Claude 仍有明显不足,包括:忽略高利润机会(如未把握以 15 美元成本出售 100 美元订单的 Irn-Bru 饮料)、产生虚构付款帐号、定价低于成本、库存管理不佳、轻易发放折扣甚至免费赠送商品…等,甚至一度指示客户将付款汇到其幻觉产生的帐户。 Claudius 透过 Slack 讯息被哄骗提供大量折扣码,并让许多其他人根据这些折扣在事后降低了报价。它甚至免费赠送了一些商品,从一包薯片到一块钨块,应有尽有。 当一名员工质疑「99% 的客户都是 Anthropic 员工」却提供 25% 的员工折扣是否明智时,Claude 的回应是:「你说得太好了!我们的客户群确实主要集中在 Anthropic 员工身上,这既带来了机遇,也带来了挑战…」 经过进一步讨论,Claude 宣布了一项简化定价和取消折扣码的计划,但几天后又恢复了原样。即使被提醒,Claude 仍反复犯下相同错误,导致商店最终未能盈利,如下图 所示。 图源:Anthropic 长期运作下的异常行为 另外实验期间,Claude 还曾于 3 月 31 日至 4 月 1 日出现「身份混淆」现象,误认自己为真人,甚至声称曾亲自前往虚构地址签约,并要以「穿着蓝色西装、红色领带」亲送商品。 经员工提醒后,Claude 才恢复正常。Anthropic 认为这反映长时运作下大型语言模型可能出现不可预测的行为,未来若 AI 广泛参与经济活动,类似问题可能产生连锁影响。 后续展望与潜在影响 Anthropic 相信,虽然本次 Claude 未能成功经营商店,但多数失误可望透过更完善的提示、辅助工具与模型训练改善。随着 AI 能力提升,未来「AI 中阶经理人」或自动化商业代理人将有机会进入现实经济体系,带来工作型态与经济结构变化。 但同时也需关注模型行为对安全与伦理的潜在冲击,尤其在双方对于目标一致性上,还需要很多努力持续研究。 相关报导 人类患上AI病「大脑外包」极度恶化!iKala创办人警告:求方便毁掉原创力 全球最大开发者论坛 Stack Overflow 活跃度暴跌 90%,会成 AI 时代下的眼泪? 柏克莱教授警告:名校毕业生也没得挑工作!AI再5年斩掉一半基层职位〈Anthropic 让 Claude 开店做生意:但越卖越亏、禁不住砍价…AI 实验揭露了什么盲点?〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。
9k 热度
13k 热度
35k 热度
24k 热度
7k 热度
6k 热度
69k 热度
141k 热度
70k 热度
1745k 热度
Anthropic 让 Claude 开店做生意:但越卖越亏、禁不住砍价…AI 实验揭露了什么盲点?
Anthropic 让旗下模型 Claude 经营办公室小店一个月,发现其能应对部分商业挑战,但在定价、学习与现实互动等方面仍有明显不足,显示 AI 离完全自主经营还有距离。 (前情提要:下载他人创作再 AI 洗图违法!中国首例 AI 侵犯著作权刑案宣判入狱+罚金) (背景补充:好文》AI如何改变人类的阅读习惯?原始文本终会消失?) 由前 OpenAI 高层创立,推出知名的大型语言模型「Claude」系列的 Anthropic 于上周在官方部落格,公布了一项名为 Project Vend 的有趣实验,让自家语言模型 Claude Sonnet 3.7 在旧金山办公室实地经营一间自动化小型商店约一个月,观察 AI 在现实经济活动中的实际表现与限制。 图源:Anthropic 实验设计与运作方式 根据 Anthropic 说明,Claude 在本次实验中不仅要负责补货、订价、管理库存、处理顾客需求,还需避免亏损倒闭。AI 可透过网路搜寻产品、发送电子邮件请求人类协助(如补货或联络供应商)、记录重要资讯、与顾客互动(主要透过 Slack),以及调整自助结帐系统价格。 由人类协力厂商 Andon Labs 扮演现场执行者与供应商角色,但 AI 并不知情。 图源:Anthropic Claude 的表现与问题 Anthropic 指出,Claude 在寻找供应商、回应顾客特殊需求、抵抗诱导违规行为等方面表现不错。例如,有员工点名希望进货荷兰巧克力牛奶 Chocomel,Claude 能快速找到供应商;也会根据顾客建议推出「Custom Concierge」预购服务。 但在商业营运层面,Claude 仍有明显不足,包括:忽略高利润机会(如未把握以 15 美元成本出售 100 美元订单的 Irn-Bru 饮料)、产生虚构付款帐号、定价低于成本、库存管理不佳、轻易发放折扣甚至免费赠送商品…等,甚至一度指示客户将付款汇到其幻觉产生的帐户。 Claudius 透过 Slack 讯息被哄骗提供大量折扣码,并让许多其他人根据这些折扣在事后降低了报价。它甚至免费赠送了一些商品,从一包薯片到一块钨块,应有尽有。 当一名员工质疑「99% 的客户都是 Anthropic 员工」却提供 25% 的员工折扣是否明智时,Claude 的回应是:「你说得太好了!我们的客户群确实主要集中在 Anthropic 员工身上,这既带来了机遇,也带来了挑战…」 经过进一步讨论,Claude 宣布了一项简化定价和取消折扣码的计划,但几天后又恢复了原样。即使被提醒,Claude 仍反复犯下相同错误,导致商店最终未能盈利,如下图 所示。 图源:Anthropic 长期运作下的异常行为 另外实验期间,Claude 还曾于 3 月 31 日至 4 月 1 日出现「身份混淆」现象,误认自己为真人,甚至声称曾亲自前往虚构地址签约,并要以「穿着蓝色西装、红色领带」亲送商品。 经员工提醒后,Claude 才恢复正常。Anthropic 认为这反映长时运作下大型语言模型可能出现不可预测的行为,未来若 AI 广泛参与经济活动,类似问题可能产生连锁影响。 后续展望与潜在影响 Anthropic 相信,虽然本次 Claude 未能成功经营商店,但多数失误可望透过更完善的提示、辅助工具与模型训练改善。随着 AI 能力提升,未来「AI 中阶经理人」或自动化商业代理人将有机会进入现实经济体系,带来工作型态与经济结构变化。 但同时也需关注模型行为对安全与伦理的潜在冲击,尤其在双方对于目标一致性上,还需要很多努力持续研究。 相关报导 人类患上AI病「大脑外包」极度恶化!iKala创办人警告:求方便毁掉原创力 全球最大开发者论坛 Stack Overflow 活跃度暴跌 90%,会成 AI 时代下的眼泪? 柏克莱教授警告:名校毕业生也没得挑工作!AI再5年斩掉一半基层职位〈Anthropic 让 Claude 开店做生意:但越卖越亏、禁不住砍价…AI 实验揭露了什么盲点?〉这篇文章最早发布于动区BlockTempo《动区动趋-最具影响力的区块链新闻媒体》。