L’intelligenza artificiale inciampa nella matematica più difficile

ChatGPT 5.5 Pro e altri modelli IA messi alla prova da First Proof, il migliore risolve 6 problemi su 10

L�intelligenza artificiale non supera il test matematico pi� difficile, nessun modello risolve tutti i quesiti

L�intelligenza artificiale continua a sorprendere per velocit�, capacit� di calcolo e abilit� nel generare testi, immagini e soluzioni complesse. Eppure, davanti a uno dei test matematici pi� rigorosi mai proposti finora, i modelli pi� avanzati non sono riusciti a superare completamente la prova.

Nel confronto sono stati messi alla prova quattro sistemi, tra cui ChatGPT 5.5 Pro. Nessuno � riuscito a rispondere correttamente a tutti e dieci i quesiti. Il risultato migliore � stato ottenuto dal modello del Politecnico di Zurigo, l�Eth, che ha risolto sei problemi su dieci.

Un test pensato per misurare il ragionamento reale

La prova fa parte di First Proof, un progetto indipendente nato per osservare l�evoluzione dell�intelligenza artificiale nella ricerca matematica. L�obiettivo non era verificare la capacit� dei modelli di ripetere formule o informazioni gi� disponibili, ma capire quanto fossero in grado di affrontare problemi nuovi.

Per questo motivo, le domande non erano mai state pubblicate prima, n� nella letteratura scientifica n� su Internet. Una scelta importante, perch� riduce il rischio che i sistemi si limitino a recuperare risposte apprese durante l�addestramento, senza costruire davvero un percorso logico originale.

Il risultato dei modelli in gara

Il modello dell�Eth di Zurigo ha ottenuto il miglior risultato, risolvendo correttamente sei quesiti su dieci. Alle sue spalle si � classificato il sistema dell�Universit� della California a Los Angeles, mentre ChatGPT di OpenAI � arrivato terzo.

Ultimo posto per il modello dell�Universit� di Princeton, che a differenza degli altri si basava su Gemini di Google. Il quadro complessivo mostra un dato interessante, l�intelligenza artificiale pu� affrontare problemi matematici complessi, ma non � ancora in grado di garantire una soluzione completa e affidabile in ogni situazione.

Perch� la matematica resta una prova difficile

La matematica avanzata non richiede soltanto calcolo. Richiede intuizione, capacit� di scegliere una strada, attenzione ai dettagli e controllo rigoroso dei passaggi. � proprio qui che i modelli di intelligenza artificiale mostrano ancora alcuni limiti.

In diversi casi, secondo le prime analisi, ai sistemi mancava un�intuizione decisiva per arrivare alla soluzione finale. In altri, invece, l�impostazione iniziale era corretta, ma il modello non � riuscito a seguire tutti i passaggi necessari o a cogliere dettagli fondamentali del problema.

Il controllo dei matematici sulle risposte

Le risposte prodotte dai modelli non sono state valutate automaticamente. A verificarle � stato un gruppo composto da 30 matematici, chiamati a controllare la correttezza delle soluzioni e la solidit� dei ragionamenti.

Questo elemento rende il test particolarmente significativo. Non bastava arrivare a un risultato apparentemente plausibile, ma era necessario dimostrare un percorso valido, coerente e matematicamente fondato. In un ambito come questo, una piccola imprecisione pu� compromettere l�intera soluzione.

Il ruolo di OpenAI e dei modelli pubblici

Una delle regole del test prevedeva che i sistemi partecipanti fossero disponibili al grande pubblico. Questo criterio ha fatto s� che OpenAI fosse l�unica grande azienda tecnologica direttamente presente nella prova.

Due degli altri tre modelli, per�, utilizzavano comunque ChatGPT come base, attraverso sistemi automatici nei quali le risposte venivano controllate, corrette e migliorate da altri chatbot. In alcuni casi, il processo prevedeva pi� scambi successivi, con l�obiettivo di raffinare il ragionamento iniziale.

Quando l�IA ragiona bene ma non abbastanza

Il risultato del test non dice che l�intelligenza artificiale sia inutile nella matematica. Al contrario, conferma che questi strumenti possono gi� offrire contributi importanti, soprattutto nell�esplorazione di ipotesi, nella verifica di passaggi e nella generazione di possibili strategie.

Il punto � un altro. Nei problemi davvero difficili, dove serve una combinazione di creativit�, rigore e intuizione, l�IA pu� ancora fermarsi prima della soluzione completa. Pu� individuare una direzione promettente, ma non sempre riesce a percorrerla fino in fondo senza errori.

Il confronto con gli esseri umani

Il dato pi� interessante � che, in questa prova, gli esseri umani hanno mantenuto un vantaggio netto. Non perch� siano pi� rapidi o pi� efficienti nel calcolo, ma perch� riescono ancora a riconoscere strutture profonde, collegamenti non immediati e passaggi nascosti che un modello pu� non cogliere.

La matematica, soprattutto ad alto livello, non � soltanto una sequenza di operazioni. � anche capacit� di vedere una strada dove non sembra esserci, di cambiare prospettiva e di intuire quale dettaglio pu� sbloccare l�intero problema. � proprio su questo terreno che l�intelligenza artificiale mostra ancora margini di miglioramento.

Un risultato che invita alla prudenza

Il test di First Proof arriva in un momento in cui l�intelligenza artificiale viene spesso presentata come uno strumento capace di superare rapidamente molte competenze umane. La prova matematica racconta una realt� pi� sfumata.

I modelli sono potenti, migliorano rapidamente e possono diventare alleati preziosi nella ricerca. Tuttavia, quando il problema richiede ragionamento originale e controllo rigoroso, la distanza dagli esseri umani non � ancora annullata. Pi� che una sconfitta definitiva dell�IA, questo test sembra indicare un confine ancora aperto.

La ricerca matematica come banco di prova

La matematica potrebbe diventare uno dei campi pi� utili per misurare davvero i progressi dell�intelligenza artificiale. A differenza di altri ambiti, qui non basta produrre una risposta convincente o ben scritta. La soluzione deve essere corretta, verificabile e costruita su passaggi solidi.

Per questo i risultati del test sono importanti. Mostrano che l�IA pu� avvicinarsi a forme di ragionamento sempre pi� sofisticate, ma anche che il pensiero umano conserva un ruolo decisivo, soprattutto quando servono intuizione, metodo e capacit� di giudizio.

17 Giugno 2026
© I.CO.E. grippi associati
https://www.grippiassociati.com/focus.do?dettagli=quando-intelligenza-artificiale-inciampa&key=1781692320

Editoriale realizzato in collaborazione con la I.CO.E.
Centro studi su innovazione, comunicazione ed etica.

Copywriters
Francesca S., Matteo R., Laura A., Antonella B., Giorgio F., Anna C., Miriam M., Stefano G., Adele P., Francesca N. e Roberto C. Indice articoli