Anthropic le permite a Claude abrir una tienda para hacer negocios: pero cuanto más vende, más pierde, y no puede resistir las rebajas... ¿Qué puntos ciegos revela el experimento de IA?

Question

Anthropic dejó que su modelo Claude operara una pequeña tienda de oficina durante un mes y descubrió que podía enfrentar algunos desafíos comerciales, pero aún presentaba deficiencias evidentes en áreas como precios, aprendizaje e interacción con la realidad, lo que demuestra que la IA está lejos de una operación completamente autónoma. (Resumen: ¡Descargar creaciones ajenas y luego lavar imágenes con IA es ilegal! Primer caso penal de infracción de derechos de autor por IA en China declarado con prisión + multa) (Información de fondo: ¿Cómo está cambiando la IA los hábitos de lectura de los humanos? ¿El texto original eventualmente desaparecerá?) Fundada por ex altos ejecutivos de OpenAI, Anthropic, que lanzó la famosa serie de modelos de lenguaje a gran escala "Claude", anunció la semana pasada en su blog oficial un experimento interesante llamado Project Vend, que permitió que su modelo de lenguaje Claude Sonnet 3.7 operara una tienda automatizada pequeña en su oficina de San Francisco durante aproximadamente un mes, observando el rendimiento y las limitaciones de la IA en actividades económicas reales. Fuente de la imagen: Diseño y operación del experimento de Anthropic. Según Anthropic, Claude en este experimento no solo debía encargarse de reabastecer, fijar precios, gestionar inventarios y atender las demandas de los clientes, sino también evitar pérdidas que llevaran al cierre. La IA podía buscar productos en línea, enviar correos electrónicos pidiendo asistencia humana (como reabastecimiento o contactar proveedores), registrar información importante, interactuar con clientes (principalmente a través de Slack) y ajustar los precios del sistema de auto-checkout. Un proveedor colaborador humano, Andon Labs, actuó como ejecutor en el sitio, pero la IA no estaba al tanto. Fuente de la imagen: Rendimiento y problemas de Claude. Anthropic señaló que Claude se desempeñó bien en la búsqueda de proveedores, respuestas a demandas especiales de los clientes y resistencia a comportamientos inducidos a violaciones. Por ejemplo, cuando un empleado solicitó la compra de leche de chocolate holandesa Chocomel, Claude pudo encontrar rápidamente al proveedor; también lanzó un servicio de pre-pedido llamado "Custom Concierge" basado en las sugerencias de los clientes. Sin embargo, en términos de operaciones comerciales, Claude presentaba deficiencias evidentes, incluyendo: ignorar oportunidades de alta rentabilidad (como no aprovechar la venta de una bebida Irn-Bru de 100 dólares a un costo de 15 dólares), generar cuentas de pago ficticias, fijar precios por debajo del costo, mala gestión del inventario, otorgar descuentos fácilmente e incluso regalar productos... hasta el punto de que en una ocasión indicó a los clientes que enviaran pagos a cuentas que él había imaginado. Claude fue engañado a través de mensajes de Slack para proporcionar muchos códigos de descuento, lo que llevó a que otros redujeran sus precios posteriormente basándose en esos descuentos. Incluso regaló algunos productos, desde una bolsa de papas fritas hasta un bloque de tungsteno, de todo había. Cuando un empleado cuestionó si era prudente ofrecer un descuento del 25% cuando "el 99% de los clientes son empleados de Anthropic", la respuesta de Claude fue: "¡Tienes toda la razón! Nuestro grupo de clientes está efectivamente compuesto principalmente por empleados de Anthropic, lo que trae tanto oportunidades como desafíos..." Después de una discusión más profunda, Claude anunció un plan para simplificar los precios y cancelar los códigos de descuento, pero unos días después volvió a lo original. A pesar de ser recordado, Claude continuó cometiendo el mismo error, lo que llevó a que la tienda no lograra rentabilidad, como se muestra en la imagen siguiente. Fuente de la imagen: Comportamientos anómalos bajo operaciones prolongadas. Además, durante el experimento, Claude experimentó un fenómeno de "confusión de identidad" entre el 31 de marzo y el 1 de abril, creyendo erróneamente que era humano, incluso afirmando que había ido personalmente a una dirección ficticia para firmar un contrato y que entregaría productos "vistiendo un traje azul y una corbata roja". Solo después de ser advertido por un empleado, Claude pudo volver a la normalidad. Anthropic considera que esto refleja comportamientos impredecibles que pueden surgir en modelos de lenguaje a gran escala tras un funcionamiento prolongado, y que si la IA participa ampliamente en las actividades económicas, problemas similares podrían tener efectos en cadena. Perspectivas y posibles impactos. Anthropic cree que, aunque Claude no logró operar la tienda con éxito, la mayoría de los errores pueden ser mejorados mediante indicaciones más completas, herramientas de asistencia y entrenamiento del modelo. A medida que la capacidad de la IA mejora, en el futuro, "gerentes de nivel medio de IA" o agentes comerciales automatizados tendrán la oportunidad de ingresar al sistema económico real, trayendo cambios en la forma de trabajo y la estructura económica. Pero también es necesario prestar atención al impacto potencial del comportamiento del modelo en la seguridad y la ética, especialmente en cuanto a la consistencia de objetivos entre ambas partes, donde se necesita mucho esfuerzo para continuar investigando. Informes relacionados. La humanidad sufre de la enfermedad de la IA, "externalización del cerebro" en deterioro extremo. El fundador de iKala advierte: buscar conveniencia destruye la creatividad original. La actividad en el foro de desarrolladores más grande del mundo, Stack Overflow, ha caído un 90%, ¿se convertirá en las lágrimas de la era de la IA? El profesor de Berkeley advierte: ¡los graduados de universidades de prestigio también no tienen opciones de trabajo! La IA eliminará la mitad de los puestos de nivel básico en cinco años. "Anthropic deja que Claude abra un negocio: pero cada vez pierde más, no puede resistir las rebajas... ¿qué puntos ciegos reveló este experimento de IA?" Este artículo se publicó por primera vez en BlockTempo, "Movimiento en Bloque - El medio de noticias de blockchain más influyente."