"L'ultimo esame dell'Umanità": cosa rivela il test per IA più difficile mai costruito

Quasi 1.000 ricercatori di tutto il mondo hanno costruito “Humanity’s Last Exam”, un test da 2.500 domande su matematica, scienze naturali, lingue antiche e discipline specializzate progettato per misurare i limiti reali dei sistemi di intelligenza artificiale.

I modelli più avanzati oggi disponibili raggiungono tra il 40% e il 50% di risposte corrette, mentre i modelli di appena due anni fa si fermavano sotto il 10%, rivelando un divario ancora ampio tra capacità delle macchine e conoscenza esperta umana. Lo studio è pubblicato su Nature.

Cosa troverai in questo articolo:

Il problema dei benchmark: perché i vecchi test non bastano più

Per anni, i ricercatori di intelligenza artificiale hanno misurato le capacità dei propri sistemi usando benchmark standardizzati, serie di domande e compiti con cui confrontare le prestazioni dei modelli nel tempo e tra architetture diverse. Il più noto di questi strumenti è il Massive Multitask Language Understanding (MMLU), un test da 57 materie accademiche che copre matematica, medicina, diritto, storia e scienze. Quando fu introdotto nel 2020, MMLU era considerato un banco di prova impegnativo: i migliori modelli dell’epoca si attestavano attorno al 40-50% di risposte corrette, con performance umane di riferimento intorno all’89%.

Nel giro di pochi anni, la situazione si è ribaltata. I modelli linguistici di grandi dimensioni di ultima generazione superano il 90% su MMLU, raggiungendo e in alcuni casi superando il livello umano di riferimento. Lo stesso fenomeno si è ripetuto su decine di altri benchmark standard: HumanEval per la programmazione, GSM8K per la matematica elementare, ARC per il ragionamento scientifico. Man mano che i modelli diventavano più capaci, i test diventavano saturi, smettendo di discriminare tra sistemi diversi e di segnalare progressi o limiti reali.

Il problema non è solo tecnico. Come spiega il Dr. Tung Nguyen, professore associato di informatica alla Texas A&M University e tra i principali contributori dello studio: “Senza strumenti di valutazione accurati, i responsabili politici, gli sviluppatori e gli utenti rischiano di fraintendere cosa possono fare realmente i sistemi di intelligenza artificiale.” Un benchmark saturo non fornisce più informazioni utili su dove un modello eccelle e dove fallisce, rendendo impossibile una governance dell’AI basata su dati reali.

La costruzione di Humanity’s Last Exam: metodo e criteri di selezione

La risposta a questo problema è stata Humanity’s Last Exam (HLE), un progetto che ha coinvolto quasi 1.000 esperti provenienti da università, istituti di ricerca e industria di tutto il mondo, con l’obiettivo di costruire un benchmark che i modelli attuali non potessero saturare. Il risultato è un test da 2.500 domande su matematica avanzata, scienze naturali, scienze umane, lingue antiche e una vasta gamma di discipline accademiche altamente specializzate.

La caratteristica metodologica più distintiva di HLE è il suo processo di selezione delle domande. Ogni quesito proposto dai contributori è stato testato sui principali modelli AI disponibili al momento della costruzione del benchmark. Se un modello riusciva a rispondere correttamente a una domanda, quella domanda veniva eliminata dal test finale. Solo le domande che nessun sistema era in grado di risolvere correttamente hanno superato la selezione. Questo processo iterativo garantisce che HLE misuri esattamente ciò che i modelli non sanno fare, e non ciò che già sanno.

Un secondo criterio di selezione riguarda la struttura delle domande: ogni quesito deve avere una risposta unica e verificabile, eliminando le ambiguità interpretative che possono falsare le valutazioni. Le domande non devono inoltre essere risolvibili con una semplice ricerca su internet, il che esclude quesiti fattuali semplici e richiede invece ragionamento, sintesi di conoscenze specializzate o applicazione di metodi complessi.

Gli esempi forniti dal team di ricerca danno un’idea della profondità del materiale incluso: la traduzione di iscrizioni palmirene antiche, l’identificazione di strutture anatomiche microscopiche negli uccelli, l’analisi di caratteristiche fonetiche dettagliate dell’ebraico biblico, problemi di matematica avanzata che richiedono dimostrazioni originali. Si tratta di compiti che richiedono anni di formazione specialistica e non sono accessibili attraverso il pattern matching statistico su corpus di testi generali.

Nguyen, che ha contribuito personalmente 73 delle 2.500 domande pubblicamente disponibili (il secondo contributo individuale più alto tra tutti i partecipanti) con domande prevalentemente in matematica e informatica, sottolinea la differenza concettuale tra questo approccio e i benchmark tradizionali: “Quando i sistemi AI cominciano a performare molto bene sui benchmark umani, è tentante pensare che si stiano avvicinando alla comprensione umana. Ma HLE ci ricorda che l’intelligenza non riguarda solo il riconoscimento di pattern: riguarda profondità, contesto e competenza specializzata.”

I risultati: da GPT-4o al 2,7% ai modelli attuali al 40-50%

I dati di performance dei modelli su HLE rivelano con precisione insolita la traiettoria di sviluppo dell’intelligenza artificiale negli ultimi due anni e il divario ancora esistente rispetto alla conoscenza esperta umana.

Nella fase di costruzione del benchmark, i primi modelli testati hanno mostrato performance molto basse: GPT-4o si è fermato al 2,7% di risposte corrette, Claude 3.5 Sonnet al 4,1%, OpenAI o1 all’8%. Questi risultati, letti isolatamente, potrebbero sembrare sorprendenti per modelli che su MMLU superano il 90%, ma riflettono esattamente la proprietà per cui HLE è stato progettato: misurare ciò che i modelli non sanno, non ciò che sanno.

I modelli di generazione successiva hanno mostrato miglioramenti significativi: Gemini 3.1 Pro e Claude Opus 4.6 raggiungono tra il 40% e il 50% di risposte corrette. Questo salto, da meno del 10% a quasi la metà delle risposte corrette in circa due anni, è un indicatore della velocità di sviluppo del settore. Allo stesso tempo, un tasso di errore del 50-60% su domande che qualsiasi esperto umano nel campo specifico saprebbe rispondere correttamente indica un divario ancora molto ampio rispetto alla conoscenza specialistica di livello umano.

È importante leggere questi numeri nel loro contesto metodologico: le domande di HLE non sono un campione rappresentativo della conoscenza umana in generale, ma una selezione deliberatamente orientata verso i limiti dei modelli attuali. Il punteggio assoluto su HLE non misura quindi “quanta intelligenza ha un modello” in senso generale, ma dove si trovano i confini della sua competenza nelle aree più specializzate del sapere umano.

Perché HLE è rilevante per chi gestisce organizzazioni e prende decisioni sull’AI

Per i manager e i decision maker che valutano l’adozione di sistemi AI nelle proprie organizzazioni, Humanity’s Last Exam offre una prospettiva metodologicamente rigorosa su una questione che ha implicazioni pratiche dirette: fino a che punto ci si può fidare di un sistema AI in compiti che richiedono conoscenza specialistica?

Il fenomeno della saturazione dei benchmark ha una diretta analogia nel contesto aziendale. Quando un fornitore di software AI dichiara che il proprio modello “supera gli esperti umani” su un determinato test, la domanda critica è: su quale test, costruito con quali criteri, testato in quali condizioni? I benchmark standard su cui si basano molte dichiarazioni di marketing nel settore AI sono spesso test che i modelli attuali hanno già saturato, nel senso che i dati di addestramento dei modelli includono testi che si sovrappongono con le domande del test, rendendo la performance non generalizzabile a compiti reali analoghi.

La metodologia di HLE, ovvero costruire il test eliminando sistematicamente tutto ciò che i modelli sanno già fare, offre un modello concettuale utile per progettare valutazioni interne. Nelle organizzazioni che stanno valutando o già utilizzando sistemi AI per compiti cognitivi complessi, come la redazione di documenti legali, l’analisi di bilanci, la produzione di report scientifici o la consulenza medica, la domanda non è “quanto bene performa il modello su benchmark pubblici?” ma “quanto bene performa su compiti specifici del nostro dominio, nelle condizioni reali di utilizzo?”

Il divario tra capacità percepite e capacità reali: un rischio organizzativo

Uno dei messaggi più rilevanti per il management che emerge dallo studio è l’identificazione del rischio legato alla sovrastima delle capacità AI. Come dichiara Nguyen: “Senza strumenti di valutazione accurati, i responsabili politici, gli sviluppatori e gli utenti rischiano di fraintendere cosa possono fare realmente i sistemi di intelligenza artificiale.”

Questo rischio ha manifestazioni concrete nelle organizzazioni. Un sistema AI che ottiene il 92% su MMLU può sembrare competente quanto un esperto umano in medicina, diritto o finanza. Se su questa percezione viene costruita una decisione organizzativa, come la riduzione del personale specialistico, la delega di decisioni critiche a sistemi automatizzati senza supervisione adeguata, o l’utilizzo di output AI senza verifica, il gap tra performance percepita e performance reale su compiti altamente specializzati può tradursi in errori con conseguenze significative.

I dati di HLE mostrano che anche i modelli più avanzati disponibili oggi commettono errori su circa la metà delle domande specialistiche più difficili. In un contesto aziendale, questo non significa che i modelli AI non siano utili, ma che la loro utilità dipende criticamente dalla natura del compito, dal livello di specializzazione richiesto e dalla presenza di meccanismi di verifica umana adeguati.

La struttura del benchmark come modello per la governance AI

Al di là dei risultati specifici, la struttura metodologica di HLE offre spunti per come le organizzazioni possono costruire framework di valutazione interni più robusti per i sistemi AI che adottano.

Il primo principio è la specificità del dominio: le valutazioni devono essere costruite su compiti rappresentativi del dominio specifico di utilizzo, non su benchmark generici. Un sistema usato per analisi contrattuali deve essere testato su contratti reali del settore specifico, non su domande legali generiche.

Il secondo principio è la verifica contro i limiti, non contro i punti di forza: la metodologia di HLE, che elimina le domande che i modelli sanno già rispondere, suggerisce che le valutazioni più informative sono quelle che identificano i casi di fallimento, non quelli di successo. Sapere dove un sistema AI smette di essere affidabile è più utile operativamente che sapere dove performa bene.

Il terzo principio riguarda la separazione tra valutazione e addestramento: HLE mantiene la maggior parte delle domande riservate e non accessibili pubblicamente proprio per evitare che i modelli vengano addestrati specificamente su di esse, falsando le misurazioni future. Nelle valutazioni interne, il principio equivalente è evitare che i criteri di valutazione vengano comunicati ai fornitori prima del test, creando incentivi a ottimizzare il sistema per il test invece che per il compito reale.

La collaborazione umana interdisciplinare come vantaggio competitivo

Un elemento dello studio che merita attenzione specifica dal punto di vista manageriale è la struttura del progetto stesso. Humanity’s Last Exam non è stato costruito da un singolo laboratorio di ricerca AI, ma da quasi 1.000 esperti provenienti da discipline radicalmente diverse: storici, fisici, linguisti, medici, matematici, informatici, ricercatori di scienze naturali.

Come osserva Nguyen: “Ciò che ha reso questo progetto straordinario è stata la scala. Esperti di quasi ogni disciplina hanno contribuito. Non erano solo informatici; erano storici, fisici, linguisti, ricercatori medici. Quella diversità è esattamente ciò che espone le lacune nei sistemi AI attuali.” La capacità di costruire uno strumento che supera i modelli AI più avanzati è emersa dalla collaborazione interdisciplinare, non da capacità computazionali o da dataset più grandi.

Questo dato ha un riflesso diretto per le organizzazioni che valutano come posizionarsi rispetto all’intelligenza artificiale. Le competenze specialistiche profonde, la capacità di ragionare in contesti altamente specifici, e la collaborazione tra esperti di domini diversi rimangono, secondo i dati di HLE, caratteristiche dove gli esseri umani mantengono un vantaggio significativo sui sistemi automatizzati. La strategia organizzativa più efficace non è quindi la sostituzione della competenza umana con sistemi AI, ma l’integrazione di sistemi AI in processi dove la supervisione e il giudizio specialistico umano rimangono il fattore critico di qualità.

Trasparenza e durata: un benchmark per il lungo periodo

HLE è stato progettato esplicitamente come strumento di lungo periodo. Il team ha rilasciato pubblicamente una parte delle domande per consentire test aperti e riproducibili, mantenendo la maggioranza riservata per impedire che i modelli vengano addestrati specificamente sulle domande del test, il che invaliderebbe le misurazioni future.

Questa scelta di design riflette una consapevolezza che i benchmark hanno una vita utile limitata: una volta che i modelli raggiungono performance elevate su un test, quel test perde il suo valore discriminativo. Mantenendo una riserva di domande non pubbliche, HLE potrà continuare a misurare il gap tra AI e conoscenza esperta umana anche quando i modelli attuali avranno raggiunto performance più elevate sulla porzione pubblica.

Per le organizzazioni, questo principio suggerisce che gli strumenti di valutazione dei sistemi AI devono essere aggiornati con la stessa frequenza con cui i sistemi stessi evolvono. Un benchmark costruito oggi per valutare un modello specifico rischia di diventare obsoleto nel giro di uno o due anni, richiedendo un processo continuo di revisione dei criteri di valutazione interna.

Fonte

Long Phan, Alice Gatti et al. (2026). A benchmark of expert-level academic questions to assess AI capabilities. Nature, 649 (8099): 1139. DOI: 10.1038/s41586-025-09962-4
Texas A&M University News, 13 marzo 2026
ScienceDaily, 13 marzo 2026
lastexam.ai