L’intelligenza artificiale continua a sorprendere per velocità, capacità di calcolo e abilità nel generare testi, immagini e soluzioni complesse. Eppure, davanti a uno dei test matematici più rigorosi mai proposti finora, i modelli più avanzati non sono riusciti a superare completamente la prova.
Nel confronto sono stati messi alla prova quattro sistemi, tra cui ChatGPT 5.5 Pro. Nessuno è riuscito a rispondere correttamente a tutti e dieci i quesiti. Il risultato migliore è stato ottenuto dal modello del Politecnico di Zurigo, l’Eth, che ha risolto sei problemi su dieci.
Un test pensato per misurare il ragionamento reale
La prova fa parte di First Proof, un progetto indipendente nato per osservare l’evoluzione dell’intelligenza artificiale nella ricerca matematica. L’obiettivo non era verificare la capacità dei modelli di ripetere formule o informazioni già disponibili, ma capire quanto fossero in grado di affrontare problemi nuovi.
Per questo motivo, le domande non erano mai state pubblicate prima, né nella letteratura scientifica né su Internet. Una scelta importante, perché riduce il rischio che i sistemi si limitino a recuperare risposte apprese durante l’addestramento, senza costruire davvero un percorso logico originale.
Il risultato dei modelli in gara
Il modello dell’Eth di Zurigo ha ottenuto il miglior risultato, risolvendo correttamente sei quesiti su dieci. Alle sue spalle si è classificato il sistema dell’Università della California a Los Angeles, mentre ChatGPT di OpenAI è arrivato terzo.
Ultimo posto per il modello dell’Università di Princeton, che a differenza degli altri si basava su Gemini di Google. Il quadro complessivo mostra un dato interessante, l’intelligenza artificiale può affrontare problemi matematici complessi, ma non è ancora in grado di garantire una soluzione completa e affidabile in ogni situazione.
Perché la matematica resta una prova difficile
La matematica avanzata non richiede soltanto calcolo. Richiede intuizione, capacità di scegliere una strada, attenzione ai dettagli e controllo rigoroso dei passaggi. È proprio qui che i modelli di intelligenza artificiale mostrano ancora alcuni limiti.
In diversi casi, secondo le prime analisi, ai sistemi mancava un’intuizione decisiva per arrivare alla soluzione finale. In altri, invece, l’impostazione iniziale era corretta, ma il modello non è riuscito a seguire tutti i passaggi necessari o a cogliere dettagli fondamentali del problema.
Il controllo dei matematici sulle risposte
Le risposte prodotte dai modelli non sono state valutate automaticamente. A verificarle è stato un gruppo composto da 30 matematici, chiamati a controllare la correttezza delle soluzioni e la solidità dei ragionamenti.
Questo elemento rende il test particolarmente significativo. Non bastava arrivare a un risultato apparentemente plausibile, ma era necessario dimostrare un percorso valido, coerente e matematicamente fondato. In un ambito come questo, una piccola imprecisione può compromettere l’intera soluzione.
Il ruolo di OpenAI e dei modelli pubblici
Una delle regole del test prevedeva che i sistemi partecipanti fossero disponibili al grande pubblico. Questo criterio ha fatto sì che OpenAI fosse l’unica grande azienda tecnologica direttamente presente nella prova.
Due degli altri tre modelli, però, utilizzavano comunque ChatGPT come base, attraverso sistemi automatici nei quali le risposte venivano controllate, corrette e migliorate da altri chatbot. In alcuni casi, il processo prevedeva più scambi successivi, con l’obiettivo di raffinare il ragionamento iniziale.
Quando l’IA ragiona bene ma non abbastanza
Il risultato del test non dice che l’intelligenza artificiale sia inutile nella matematica. Al contrario, conferma che questi strumenti possono già offrire contributi importanti, soprattutto nell’esplorazione di ipotesi, nella verifica di passaggi e nella generazione di possibili strategie.
Il punto è un altro. Nei problemi davvero difficili, dove serve una combinazione di creatività, rigore e intuizione, l’IA può ancora fermarsi prima della soluzione completa. Può individuare una direzione promettente, ma non sempre riesce a percorrerla fino in fondo senza errori.
Il confronto con gli esseri umani
Il dato più interessante è che, in questa prova, gli esseri umani hanno mantenuto un vantaggio netto. Non perché siano più rapidi o più efficienti nel calcolo, ma perché riescono ancora a riconoscere strutture profonde, collegamenti non immediati e passaggi nascosti che un modello può non cogliere.
La matematica, soprattutto ad alto livello, non è soltanto una sequenza di operazioni. È anche capacità di vedere una strada dove non sembra esserci, di cambiare prospettiva e di intuire quale dettaglio può sbloccare l’intero problema. È proprio su questo terreno che l’intelligenza artificiale mostra ancora margini di miglioramento.
Un risultato che invita alla prudenza
Il test di First Proof arriva in un momento in cui l’intelligenza artificiale viene spesso presentata come uno strumento capace di superare rapidamente molte competenze umane. La prova matematica racconta una realtà più sfumata.
I modelli sono potenti, migliorano rapidamente e possono diventare alleati preziosi nella ricerca. Tuttavia, quando il problema richiede ragionamento originale e controllo rigoroso, la distanza dagli esseri umani non è ancora annullata. Più che una sconfitta definitiva dell’IA, questo test sembra indicare un confine ancora aperto.
La ricerca matematica come banco di prova
La matematica potrebbe diventare uno dei campi più utili per misurare davvero i progressi dell’intelligenza artificiale. A differenza di altri ambiti, qui non basta produrre una risposta convincente o ben scritta. La soluzione deve essere corretta, verificabile e costruita su passaggi solidi.
Per questo i risultati del test sono importanti. Mostrano che l’IA può avvicinarsi a forme di ragionamento sempre più sofisticate, ma anche che il pensiero umano conserva un ruolo decisivo, soprattutto quando servono intuizione, metodo e capacità di giudizio.
17 Giugno 2026
© I.CO.E. grippi associati
https://www.grippiassociati.com/focus.do?dettagli=quando-intelligenza-artificiale-inciampa&key=1781692320
Editoriale realizzato in collaborazione con la I.CO.E.
Centro studi su innovazione, comunicazione ed etica.
Copywriters
Francesca S., Matteo R., Laura A., Antonella B., Giorgio F., Anna C., Miriam M., Stefano G., Adele P., Francesca N. e Roberto C.
Indice articoli

+39.06.5654.8962 phone
+39.338.146.147.6 infoline
+39.06.2331.8513 fax
consulting@grippiassociati.com
Messaggio WhatsApp
Privacy e Cookie (GDPR)
grippi associati ICT
Via Giosué Carducci, 10
00187 Roma IT
PI 14592991005
GoogleMap
Data Center: Via C. Pavese RM-EUR
30th Anniversary 1996–2026
© 1996, grippi associati ICT. Tutti i diritti sono riservati.