Sfida all'Ultimo Esame dell'Umanità: ChatGPT, Gemini, Claude e DeepSeek rivelano il futuro tecnologico
    Inteligencia Artificial (IA)

    Sfida all'Ultimo Esame dell'Umanità: ChatGPT, Gemini, Claude e DeepSeek rivelano il futuro tecnologico

    Paloma Firgaira
    2026-03-05
    5 min read
    ChatGPT, Gemini, Claude e DeepSeek sono stati valutati nell'Humanity’s Last Exam, un test impegnativo pubblicato su Nature che misura le loro prestazioni rispetto a esperti umani e riaccende il dibattito sulla prossimità dell'intelligenza artificiale generale (AGI). I risultati mostrano progressi significativi, sebbene il divario con il livello umano rimanga considerevole. L'esame, sviluppato dal Center for AI Safety e Scale AI, è stato presentato nel gennaio 2025 come un nuovo standard per misurare la reale capacità dei grandi modelli di linguaggio. A differenza di altri benchmark, questo test cerca di determinare se sistemi come GPT-4o, Gemini, Claude o DeepSeek possano avvicinarsi alla conoscenza specializzata umana in diverse aree. Lo studio, pubblicato su Nature il 28 gennaio, descrive una valutazione di 2.500 domande che coprono oltre 100 discipline. Più di 1.000 esperti di 500 istituzioni in 50 paesi hanno partecipato alla sua elaborazione, seguendo criteri rigorosi: domande precise, verificabili e che non possano essere risolte con una semplice ricerca su internet. Gli organizzatori dell'Humanity’s Last Exam hanno scartato qualsiasi questione che potesse essere facilmente trovata in rete o che i modelli avrebbero risposto correttamente in fasi precedenti. Di circa 70.000 proposte iniziali, solo 13.000 hanno superato il filtro automatico mettendo in difficoltà i sistemi di IA. Dopo una revisione aggiuntiva da parte di specialisti, il numero è stato ridotto a 2.500 domande di livello equivalente a dottorato, che spaziano dalla mitologia greca a problemi avanzati di fisica su forze e movimento in sistemi ideali. Al lancio del test, OpenAI ha posizionato il suo modello o1 al primo posto con solo l'8,3% di risposte corrette. I ricercatori prevedevano già che, al ritmo attuale di avanzamento, i modelli potessero superare il 50% prima della fine del 2025, una previsione che non sembrava irrealistica. Al 12 febbraio 2026, il punteggio migliore corrisponde a Gemini 3 Deep Think, con il 48,4%. Questa cifra contrasta con le prestazioni degli esperti umani, che si aggirano attorno al 90% nelle rispettive aree. Così, l'intelligenza artificiale si posiziona in un punto intermedio: competente, ma ancora lontana dal dominio esperto. Gli autori dello studio avvertono sui limiti di questa metrica: “Un'alta precisione nell'HLE dimostrerebbe una prestazione di livello esperto in domande chiuse e verificabili e conoscenza scientifica avanzata, ma non implica da sola capacità di ricerca autonoma né intelligenza artificiale generale”, affermano nell'articolo, suggerendo che l'arrivo dell'AGI è ancora lontano. Fonte: elconfidencial.com
    Paloma Firgaira

    Paloma Firgaira

    CEO

    Con más de 20 años de experiencia, Paloma es una ejecutiva flexible y ágil que sobresale implementando estrategias adaptadas a cada situación. Su MBA en Administración de Empresas y experiencia como Experta en IA y Automatización fortalecen su liderazgo y pensamiento estratégico. Su eficiencia en la planificación de tareas y rápida adaptación al cambio contribuyen positivamente a su trabajo. Con sólidas habilidades de liderazgo e interpersonales, tiene un historial comprobado en gestión financiera, planificación estratégica y desarrollo de equipos.