O modelo mais poderoso da OpenAI o3 'acusado de batota' suspeito de usar privilégios para obter respostas antecipadas nos testes, falsificação de habilidades matemáticas?

Question

Recentemente, o contratante da Epoch AI, uma organização sem fins lucrativos chamada "Meemi", postou no fórum Less Wrong que a OpenAI, a desenvolvedora por trás do ChatGPT, financiou de forma privada o desenvolvimento de IA da plataforma de teste matemático FrontierMath, e tem o privilégio de obter as perguntas e respostas do teste FrontierMath para ajudar seu mais recente modelo o3 a obter uma pontuação alta no teste. (Sinopse: Quer controlar o ChatGPT? Musk enviou uma carta ao inspetor-geral exigindo um leilão obrigatório de ações da OpenAI) (Suplemento de antecedentes: OpenAI lançou a nova função do Day2 de "ajuste fino de aprendizagem de reforço" contra o céu para melhorar a precisão de aprendizagem de campos profissionais de IA) A OpenAI, a desenvolvedora por trás do ChatGPT, recentemente espalhou rumores de fraude de modelos, causando ampla discussão na comunidade de tecnologia. O incidente teve origem numa revelação de um contratante da Epoch AI para uma organização sem fins lucrativos chamada "Meemi" no fórum Less Wrong. O artigo apontou que a plataforma de teste Referência para testar a matemática de desenvolvimento de IA FrontierMath não só foi financiada pela OpenAI, mas a FrontierMath tem o privilégio de "abrir uma porta dos fundos" para o mais recente modelo o3 da OpenAI. Leia mais: OpenAI lança modelo o3! Capacidade de raciocínio eleva o nível, abrindo caminho para a próxima geração de IA Meemi acusa OpenAI de obter perguntas e respostas antes de testar modelos o3 Meemi mencionou no artigo que muitas proposições e contratantes relacionados à FrontierMath desconheciam o financiamento da OpenAI: Os matemáticos que criaram problemas de matemática para a FrontierMath não foram (ativamente) informados sobre o financiamento da OpenAI. Os contratados são obrigados a manter os tópicos e suas respostas confidenciais, incluindo não usar Overleaf, Colab ou e-mail para discutir tópicos, e assinar NDAs (Protocolo Confidencial) para garantir a confidencialidade do tópico e evitar vazamentos. Além disso, os contratantes não foram informados do financiamento da OpenAI em 20 de dezembro. Acredito que mesmo alguns dos autores dos artigos assinados desconhecem o financiamento da OpenAI. Meemi acrescentou que tem fontes indiretas indicando que a OpenAI tinha as perguntas e respostas da FrontierMath antes dos testes: Atualmente, a Epoch AI ou OpenAI não indica publicamente se a OpenAI será capaz de acessar essas perguntas, respostas ou soluções. Tenho fontes indiretas que sugerem que a OpenAI possui essas perguntas e respostas e as usa para testes de validação. Não sei se a Epoch AI e a OpenAI têm restrições de protocolo no uso desse conjunto de dados para treinamento, mas há alguns indícios de que tal protocolo não existe. O que é FrontierMath? Entende-se que o FrontierMath é uma nova Referência matemática lançada conjuntamente pela Epoch AI e mais de 60 matemáticos em todo o mundo, incluindo professores, pessoas da IMO e vencedores da Medalha Fields. Esses problemas matemáticos, que vão desde a dificuldade de Orsay até as fronteiras atuais da matemática, abrangem todos os principais ramos da pesquisa matemática atual - desde problemas computacionais intensivos em teoria dos números e análise de números reais até problemas abstratos em geometria algébrica e teoria de grupos. Cofundador da Epoch AI veio a público pedir desculpas Na época do alvoroço na comunidade, o cofundador da Epoch AI, Tamay Besiroglu, também tuitou um pedido de desculpas pelo assunto no dia 19, dizendo: Cometemos um erro e não divulgamos a participação da OpenAI na FrontierMath anteriormente. Nosso contrato nos restringe de divulgar até que o modelo O3 seja lançado. Em retrospetiva, deveríamos ter trabalhado mais arduamente para uma transparência mais precoce. Reconhecemo-lo e faremos ainda melhor no futuro. Besiroglu também acrescentou em seu blog que, embora a OpenAI tenha acesso ao FrontierMass, ela tem um "protocolo verbal" com a Epoch AI e não usará o conjunto de problemas da FrontierMax para treinar modelos de IA. Além disso, a Epoch AI tem um conjunto de retenção separado como garantia adicional para verificar de forma independente os resultados do teste FrontierMath Referência. Cometemos um erro ao não divulgar o envolvimento da OpenAI na FrontierMath mais cedo. Nosso contrato nos barrou até por volta de o3. Em retrospetiva, deveríamos ter insistido na transparência mais cedo. Nós somos donos disso e faremos melhor. — Tamay Besiroglu (@tamaybes) January 19, 2025 Related Stories Arthur Hayes: Eu não acho que Trump vai construir reservas BTC, probabilidade de passe de 100 dias da Polymarket cai para 36% Trump relatou o cartão? Family Finanças Descentralizadas projeto WLFI ontem à noite aumentar a posição k dólares BTC, Ethereum, AAVE, ONDO... El Salvador tomou um empréstimo para continuar a aumentar a posição 12 BTC, não despejado com o protocolo do FMI "OpenAI modelo mais forte o3 "trapaça exposta" suspeito de usar privilégios para obter respostas de teste antecipadamente, fraude de habilidade matemática? Este artigo foi publicado pela primeira vez no BlockTempo, o mais influente meio de comunicação da cadeia Bloco.