ChatGPT, Gemini, Claude e DeepSeek sono stati valutati nell'Humanity’s Last Exam, un test impegnativo pubblicato su Nature che misura le loro prestazioni rispetto a esperti umani e riaccende il dibattito sulla prossimità dell'intelligenza artificiale generale (AGI). I risultati mostrano progressi significativi, sebbene il divario con il livello umano rimanga considerevole. L'esame, sviluppato dal Center for AI Safety e Scale AI, è stato presentato nel gennaio 2025 come un nuovo standard per misurare la reale capacità dei grandi modelli di linguaggio. A differenza di altri benchmark, questo test cerca di determinare se sistemi come GPT-4o, Gemini, Claude o DeepSeek possano avvicinarsi alla conoscenza specializzata umana in diverse aree. Lo studio, pubblicato su Nature il 28 gennaio, descrive una valutazione di 2.500 domande che coprono oltre 100 discipline. Più di 1.000 esperti di 500 istituzioni in 50 paesi hanno partecipato alla sua elaborazione, seguendo criteri rigorosi: domande precise, verificabili e che non possano essere risolte con una semplice ricerca su internet. Gli organizzatori dell'Humanity’s Last Exam hanno scartato qualsiasi questione che potesse essere facilmente trovata in rete o che i modelli avrebbero risposto correttamente in fasi precedenti. Di circa 70.000 proposte iniziali, solo 13.000 hanno superato il filtro automatico mettendo in difficoltà i sistemi di IA. Dopo una revisione aggiuntiva da parte di specialisti, il numero è stato ridotto a 2.500 domande di livello equivalente a dottorato, che spaziano dalla mitologia greca a problemi avanzati di fisica su forze e movimento in sistemi ideali. Al lancio del test, OpenAI ha posizionato il suo modello o1 al primo posto con solo l'8,3% di risposte corrette. I ricercatori prevedevano già che, al ritmo attuale di avanzamento, i modelli potessero superare il 50% prima della fine del 2025, una previsione che non sembrava irrealistica. Al 12 febbraio 2026, il punteggio migliore corrisponde a Gemini 3 Deep Think, con il 48,4%. Questa cifra contrasta con le prestazioni degli esperti umani, che si aggirano attorno al 90% nelle rispettive aree. Così, l'intelligenza artificiale si posiziona in un punto intermedio: competente, ma ancora lontana dal dominio esperto. Gli autori dello studio avvertono sui limiti di questa metrica: “Un'alta precisione nell'HLE dimostrerebbe una prestazione di livello esperto in domande chiuse e verificabili e conoscenza scientifica avanzata, ma non implica da sola capacità di ricerca autonoma né intelligenza artificiale generale”, affermano nell'articolo, suggerendo che l'arrivo dell'AGI è ancora lontano. Fonte: elconfidencial.com

Gialoma

Sfida all'Ultimo Esame dell'Umanità: ChatGPT, Gemini, Claude e DeepSeek rivelano il futuro tecnologico

Paloma Firgaira

Articoli Recenti

OpenAI rivoluziona l'IA con ChatGPT Images 2.0: immagini ultrarealistiche e avanzate create dall'intelligenza artificiale.

DeepSeek presenta il suo nuovo modello e lo confronta con leader statunitensi come Anthropic e Google - EFE

Marchi automobilistici leader in reputazione per la loro innovazione nell'Intelligenza Artificiale

Categorie Popolari