El modelo más poderoso de OpenAI, o3, se sospecha que ha hecho trampa al obtener respuestas de prueba de forma privilegiada. ¿Se falsificó la habilidad matemática?

Recientemente, el contratista de Epoch AI, una organización sin fines de lucro llamada "Meemi", publicó en el foro Less Wrong que OpenAI, el desarrollador detrás de ChatGPT, financió de forma privada la plataforma de pruebas matemáticas de desarrollo de IA FrontierMath, y tuvo el privilegio de obtener las preguntas y respuestas de la prueba FrontierMath para ayudar a su último modelo o3 a obtener una puntuación alta en la prueba. (Sinopsis: ¿Quieres controlar ChatGPT? Musk envió una carta al inspector general exigiendo una subasta obligatoria de acciones de OpenAI) (Suplemento de antecedentes: OpenAI lanzó la nueva función de Day2 de "ajuste fino de aprendizaje por refuerzo" contra el cielo para mejorar la precisión del aprendizaje de los campos profesionales de IA) OpenAI, el desarrollador detrás de ChatGPT, ha difundido recientemente rumores de fraude de modelos, lo que ha provocado un amplio debate en la comunidad tecnológica. El incidente se originó a partir de una revelación de un contratista de Epoch AI para una organización sin fines de lucro llamada "Meemi" en el foro Less Wrong. El artículo señala que la plataforma de pruebas Indicador de referencia para probar las matemáticas de desarrollo de IA FrontierMath no solo ha sido financiada por OpenAI, sino que FrontierMath tiene el privilegio de "abrir una puerta trasera" al último modelo o3 de OpenAI. Leer más: ¡OpenAI lanza el modelo o3! La capacidad de razonamiento eleva el nivel, allanando el camino para la próxima generación de IA Meemi acusa a OpenAI de obtener preguntas y respuestas antes de probar los modelos o3 Meemi mencionó en el artículo que muchas propuestas y contratistas relacionados con FrontierMath desconocían la financiación de OpenAI: Los matemáticos que crearon problemas matemáticos para FrontierMath no fueron informados (activamente) de la financiación de OpenAI. Los contratistas están obligados a mantener la confidencialidad de los temas y sus respuestas, lo que incluye no utilizar Overleaf, Colab o el correo electrónico para discutir los temas, y firmar acuerdos de confidencialidad (NDA, por sus siglas en inglés) para garantizar la confidencialidad de los temas y evitar filtraciones. Además, los contratistas no fueron informados de la financiación de OpenAI el 20 de diciembre. Creo que incluso algunos de los autores de los artículos firmados desconocen la financiación de OpenAI. Meemi continuó añadiendo que tiene fuentes indirectas que indican que OpenAI tenía las preguntas y respuestas de FrontierMath antes de las pruebas: Actualmente, Epoch AI u OpenAI no indican públicamente si OpenAI podrá acceder a estas preguntas, respuestas o soluciones. Tengo fuentes indirectas que sugieren que OpenAI es propietaria de estas preguntas y respuestas y las utiliza para pruebas de validación. No sé si Epoch AI y OpenAI tienen restricciones de protocolo sobre el uso de este conjunto de datos para el entrenamiento, pero hay algunos indicios de que dicho protocolo no existe. ¿Qué es FrontierMath? Se entiende que FrontierMath es un nuevo Indicador de referencia matemático lanzado conjuntamente por Epoch AI y más de 60 matemáticos de todo el mundo, incluidos profesores, personas proponentes de la OMI y ganadores de la Medalla Fields. Estos problemas matemáticos, que van desde la dificultad de Orsay hasta las fronteras actuales de las matemáticas, abarcan todas las ramas principales de la investigación matemática actual, desde problemas computacionalmente intensivos en teoría de números y análisis de números reales hasta problemas abstractos en geometría algebraica y teoría de grupos. El cofundador de Epoch AI se presentó para disculparse En el momento del alboroto en la comunidad, el cofundador de Epoch AI, Tamay Besiroglu, también tuiteó una disculpa por el asunto el día 19, diciendo: Cometimos un error y no revelamos la participación de OpenAI en FrontierMath antes. Nuestro contrato nos restringe la divulgación hasta que se lance el modelo O3. En retrospectiva, deberíamos haber trabajado más duro para lograr una transparencia más temprana. Lo reconocemos y lo haremos aún mejor en el futuro. Besiroglu también agregó en su publicación de blog que, si bien OpenAI tiene acceso a FrontierMass, tiene un "protocolo verbal" con Epoch AI y no utilizará el conjunto de problemas de FrontierMax para entrenar modelos de IA. Además, Epoch AI tiene un conjunto de retención separado como garantía adicional para verificar de forma independiente los resultados de la prueba FrontierMath Indicador de referencia. Cometimos un error al no revelar antes la participación de OpenAI en FrontierMath. Nuestro contrato nos prohibió hasta alrededor de las 300 horas. En retrospectiva, deberíamos haber presionado mucho para que se produjera una transparencia más temprana. Somos dueños de esto y lo haremos mejor. — Tamay Besiroglu (@tamaybes) 19 de enero de 2025 Artículos relacionados Arthur Hayes: No creo que Trump acumule reservas de BTC, la probabilidad de pase de 100 días de Polymarket cae al 36% ¿Trump informó de la tarjeta? Familia Finanzas descentralizadas proyecto WLFI anoche aumentar la posición k dólares BTC, Ethereum, AAVE, ONDO... El Salvador tomó un préstamo para continuar aumentar la posición 12 BTC, no desvirtuando el protocolo del FMI "El modelo más fuerte de OpenAI o3 "expuso trampas" sospechoso de usar privilegios para obtener respuestas de pruebas por adelantado, ¿fraude de habilidad matemática? Este artículo se publicó por primera vez en "Dynamic Trend - The Most Influential Bloquear Chain News Media" de BlockTempo.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)