Inteligencia Artificial (IA)
Test: Può un'IA di OpenAI sostituire il tuo lavoro? Valutazione precisa ora disponibile
Paloma Firgaira
2025-09-25
5 min read
ChatGPT compete già con gli esseri umani in compiti professionali: lo dimostra il nuovo benchmark di OpenAI
La domanda non è più se l'intelligenza artificiale potrà fare il tuo lavoro, ma quando. OpenAI ha fatto un passo decisivo per rispondere a questa domanda con il lancio di GDPval, un benchmark che valuta direttamente la capacità dei modelli di IA di svolgere compiti professionali che generano valore economico reale.
GDPval — il cui nome fa riferimento al Prodotto Interno Lordo (GDP, in inglese) — non si limita a misurare abilità tecniche, ma mette alla prova l'IA nel contesto dell'economia reale. L'obiettivo è chiaro: determinare se i modelli attuali possono sostituire professionisti in settori che rappresentano la maggior parte del PIL statunitense.
Lo studio comprende 44 professioni, dai giornalisti e consulenti finanziari agli ingegneri del software e infermieri. La metodologia è rigorosa: professionisti umani generano rapporti e deliverable reali, che vengono poi confrontati con quelli prodotti da modelli come GPT-5 e Claude Opus. Un panel di esperti indipendenti valuta quale dei lavori preferisce, senza sapere se è stato realizzato da una persona o da un'IA.
I risultati sono rivelatori. I modelli più avanzati già competono con professionisti qualificati nella generazione di documenti, analisi e raccomandazioni. Per mettere in prospettiva, GPT-4o, lanciato appena 15 mesi prima, ha ottenuto una preferenza del 13,7% in questo test. In solo un anno e mezzo, l'IA ha triplicato le sue prestazioni rispetto agli esseri umani, avvicinandosi pericolosamente alla parità.
Questo progresso non è solo tecnico, ma strutturale. Se la tendenza continua, molte professioni basate sulla produzione di rapporti, analisi e riassunti potrebbero subire trasformazioni profonde. Il lavoro della conoscenza, in gran parte, si sta trasformando in un flusso di input e output che l'IA può replicare con crescente efficacia.
Tuttavia, GDPval ha importanti limitazioni. Valuta solo la generazione di deliverable scritti, escludendo aspetti chiave del lavoro umano come la presa di decisioni strategiche, la comunicazione interpersonale, la gestione dei team o l'adattabilità a situazioni complesse. Lo stesso Dr. Aaron Chatterji, economista capo di OpenAI, riconosce che la maggior parte dei professionisti fa molto di più che scrivere rapporti. La sfida per il futuro sarà sviluppare benchmark che catturino tutta questa complessità.
Tuttavia, OpenAI sostiene che questi progressi già consentono di liberare tempo per compiti più preziosi: se l'IA può occuparsi della parte documentale, gli esseri umani possono concentrarsi su innovazione e decisioni.
Fino ad ora, i benchmark più utilizzati in IA erano di tipo accademico: risoluzione di problemi matematici, logica, comprensione del testo, ecc. Tuttavia, questi test hanno smesso di essere utili come riferimento, poiché i modelli più avanzati li superano facilmente. GDPval rappresenta una nuova generazione di valutazioni, molto più allineate con le esigenze di aziende, governi e professionisti che cercano di anticipare l'impatto reale dell'IA nei loro settori.
In definitiva, l'intelligenza artificiale non è più solo una promessa per il futuro: sta iniziando a competere, alla pari, con gli esseri umani in compiti che fino a poco tempo fa sembravano esclusivi della nostra specie. Il dibattito non è più se l'IA potrà fare il nostro lavoro, ma come ci adatteremo a convivere — e competere — con essa.