Quattro modelli a confronto: gli umani restano davanti nei test di matematica

Un esperimento indipendente ha confrontato quattro modelli di intelligenza artificiale su un esame di matematica concepito per essere particolarmente impegnativo: le domande erano inesploratecioè non pubblicate prima in letteratura o su Internet, per evitare che i sistemi si limitassero a replicare risposte già viste durante l’addestramento.

Il test, reso pubblico attraverso il progetto First Proofha sottoposto i modelli a 10 quesiti e ha affidato la verifica delle risposte a un pool indipendente di 30 matematiciincaricati di valutare correttezza e rigore delle soluzioni presentate.

Prestazioni dei modelli e classifiche verificabili

Al termine della prova è emerso che nessun modello è riuscito a rispondere correttamente a tutti i dieci problemi. Il miglior risultato è stato ottenuto dal modello sviluppato dal Politecnico Federale di Zurigo (Eth)che ha risolto con successo 6 problemi su 10. Questo piazzamento ha evidenziato come alcune architetture e metodi di calcolo possano ancora offrire vantaggi in compiti matematici complessi.

Alle spalle dell’Eth si è posizionato il sistema dell’Università della California a Los Angelesmentre il modello di OpenAI è risultato terzo nella graduatoria. Il sistema collegato all’Università di Princetonche impiegava la tecnologia nota come Gemini di Googleè rimasto all’ultimo posto tra i partecipanti registrati.

Caratteristiche del campione e criteri di ammissione

Per poter partecipare al test i modelli dovevano essere disponibili al grande pubblicocriterio che ha garantito la trasparenza e la replicabilità dell’esperimento. Le domande sono state appositamente scelte per essere nuove rispetto alla rete e alla letteratura scientifica, una precauzione che ha aumentato il grado di difficoltà e ha ridotto l’effetto di memorizzazione di risposte preesistenti.

Analisi delle risposte non risolte

Il gruppo di ricerca dell’Eth ha svolto anche una revisione preliminare delle prove non risolte da nessuno dei modelli: è emerso che in alcuni casi mancava ai sistemi una intuizione cruciale necessaria per completare la dimostrazione, mentre in altri l’approccio di base individuato era corretto ma i modelli non sono riusciti a seguire fino in fondo i dettagli formali richiesti.

Questa distinzione tra intuizione e precisione formale mette in luce due limiti differenti: da un lato la capacità di generare idee nuove o passaggi chiave, dall’altro la robustezza nel trattare passaggi numerici o logici minuti senza errori.

Il ruolo della verifica umana

La presenza di 30 matematici per il controllo delle risposte ha garantito che ogni soluzione fosse sottoposta a un giudizio esperto e indipendente, elemento essenziale quando si valuta il valore effettivo di una dimostrazione matematica. La verifica umana ha anche permesso di classificare gli errori commessi, distinguendo fra omissioni concettuali e imprecisioni esecutive.

Questo approccio combinato — test automatizzato più revisione esperta — fornisce un modello utile per valutare come l’intelligenza artificiale possa interagire con metodi di controllo umano nei contesti scientifici più rigorosi.

Implicazioni per la ricerca matematica e l’IA pubblica

I risultati del confronto suggeriscono che, nonostante i progressi, i sistemi di IA accessibili al pubblico non hanno ancora raggiunto una capacità generalizzata di risolvere problemi matematici completamente nuovi senza assistenza. L’esperimento condotto nel quadro di First Proof mette in luce aree specifiche in cui le architetture attuali mostrano fragilità, e sottolinea il ruolo dell’intervento umano nella validazione delle scoperte.

Per i ricercatori e per le istituzioni coinvolte — tra le quali figurano EthUniversità della California a Los AngelesUniversità di Princeton e OpenAI — i risultati offrono indicazioni concrete su dove concentrare gli sforzi: migliorare l’abilità dei modelli di generare intuizioni rilevanti e rafforzare la loro capacità di controllare dettagli tecnici in dimostrazioni complesse.

L’esperimento rimane un punto di riferimento per future valutazioni: il confronto aperto su modelli pubblici, unito alla revisione di esperti, costituisce una metodologia ripetibile per misurare il progresso dell’IA nella ricerca matematica.