Найпотужніша модель OpenAI o3 «зламана» підозра в тому, що вона використовувала привілеї, щоб отримати відповіді на тести заздалегідь, фальсифікація математичних навичок?

Question

Нещодавно некомерційна організація під назвою «Meemi» Epoch AI підрядник опублікувала новину про те, що OpenAI, розробник ChatGPT, приватно фінансує розробку штучного інтелекту тестової платформи FrontierMath для математики FrontierMath і має привілей отримати запитання та відповіді тесту FrontierMath, допомагаючи своїй останній моделі o3 отримати високий бал на тесті. (Синопсис: Хочете керувати ChatGPT? Маск направив листа генеральному інспектору з вимогою провести обов'язковий аукціон акцій OpenAI) (Довідкове доповнення: OpenAI випустила нову функцію Day2 «тонке налаштування навчання з підкріпленням» на тлі неба для підвищення точності навчання професійних галузей штучного інтелекту) OpenAI, розробник ChatGPT, нещодавно поширив чутки про шахрайство з моделями, що викликало широку дискусію в технологічній спільноті. Інцидент стався після викриття підрядника Epoch AI для некомерційної організації під назвою «Meemi» на форумі Less Wrong. У статті зазначається, що FrontierMath, математична тестова платформа для тестування розробки ШІ, не тільки фінансується OpenAI, але й FrontierMath має привілей «відкрити чорний хід» для останньої моделі OpenAI o3. Читайте також: OpenAI запускає модель o3! Здатність міркувати піднімає рівень вище, прокладаючи шлях для наступного покоління штучного інтелекту Meemi звинувачує OpenAI в отриманні запитань і відповідей перед тестуванням моделей o3 Міемі згадав у статті, що багато пропозицій і підрядників, пов'язаних з FrontierMath, не знали про фінансування OpenAI: Математики, які створювали математичні задачі для FrontierMath, не були (активно) поінформовані про фінансування від OpenAI. Підрядники зобов'язані зберігати конфіденційність тем та відповідей на них, у тому числі не використовувати Overleaf, Collab або електронну пошту для обговорення тем, а також підписувати NDA (Confidentialprotocol), щоб забезпечити конфіденційність теми та уникнути розголошення. Крім того, підрядники не були поінформовані про фінансування OpenAI 20 грудня. Я вважаю, що навіть деякі з авторів підписаних паперів не знають про фінансування OpenAI. Далі Міемі додав, що у нього є непрямі джерела, які вказують на те, що OpenAI мала запитання та відповіді FrontierMath перед тестуванням: Наразі Epoch AI або OpenAI публічно не вказує, чи зможе OpenAI отримати доступ до цих питань, відповідей чи рішень. У мене є непрямі джерела, які припускають, що OpenAI володіє цими питаннями та відповідями і використовує їх для валідаційного тестування. Я не знаю, чи є у Epoch AI та OpenAI протокольні обмеження на використання цього набору даних для навчання, але є деякі ознаки того, що такого протоколу не існує. Що таке FrontierMath? Зрозуміло, що FrontierMath – це новий математичний Бенчмарк, спільно запущений Epoch AI та понад 60 математиками з усього світу, включаючи професорів, пропозиційників IMO та лауреатів медалі Філдса. Ці математичні проблеми, починаючи від складності Орсе і закінчуючи сучасними рубежами математики, охоплюють всі основні галузі сучасних математичних досліджень — від інтенсивних обчислювальних задач з теорії чисел і аналізу дійсних чисел до абстрактних задач з алгебраїчної геометрії та теорії груп. Співзасновник Epoch AI виступив, щоб вибачитися Під час галасу в спільноті співзасновник Epoch AI Тамай Бесіроглу також написав у Twitter вибачення за це 19 числа, сказавши: Ми припустилися помилки і не розкрили участь OpenAI в FrontierMath раніше. Наш контракт обмежує розкриття інформації до випуску моделі O3. Озираючись назад, можна сказати, що ми повинні були більше працювати над більш ранньою прозорістю. Ми визнаємо це і будемо робити ще краще в майбутньому. Бесіроглу також додав у своєму блозі, що, хоча OpenAI має доступ до FrontierMass, він має «словесний протокол» між ним і Epoch AI, який не використовуватиме проблему FrontierMax для навчання моделей штучного інтелекту. Крім того, Epoch AI має окремий набір утримання як додаткову гарантію для незалежної перевірки результатів тесту FrontierMath Бенчмарк. Ми зробили помилку, не розкривши причетність OpenAI до FrontierMath раніше. Наш контракт забороняв нам десь до o3. Озираючись назад, можна сказати, що ми дійсно повинні були наполягати на більш ранній прозорості. Ми володіємо цим і будемо робити краще. — Тамай Бесіроглу (@tamaybes) 19 січня 2025 р. Пов'язані історії Артур Хейс: Я не думаю, що Трамп створить резерви BTC, ймовірність 100-денного проходу Polymarket падає до 36% Трамп повідомив карту? Сім'я Децентралізовані фінанси Project WLFI минулої ночі збільшили позицію мільйонів доларів BTC, Ethereum, AAVE, ONDO. Сальвадор узяв кредит, щоб продовжувати збільшувати позицію 12 BTC, не демпінгувати з протоколом МВФ 〈OpenAI найсильніша модель o3 «викрила шахрайство» підозрюється у використанні привілеїв для отримання відповідей на тести заздалегідь, шахрайство з математичними здібностями? Ця стаття була вперше опублікована в журналі BlockTempo "Dynamic Trend - The Most Influential Block Chain News Media".