ChatGPT, Gemini, Claude y DeepSeek han sido evaluados en Humanity’s Last Exam, una exigente prueba publicada en Nature que mide su desempeño frente a expertos humanos y reaviva el debate sobre la proximidad de la inteligencia artificial general (AGI). Los resultados muestran progresos significativos, aunque la brecha con el nivel humano sigue siendo considerable. El examen, desarrollado por el Center for AI Safety y Scale AI, fue presentado en enero de 2025 como un nuevo estándar para medir la capacidad real de los grandes modelos de lenguaje. A diferencia de otros benchmarks, esta prueba busca determinar si sistemas como GPT-4o, Gemini, Claude o DeepSeek pueden acercarse al conocimiento especializado humano en diversas áreas. El estudio, publicado en Nature el 28 de enero, describe una evaluación de 2.500 preguntas que cubren más de 100 disciplinas. Más de 1.000 expertos de 500 instituciones en 50 países participaron en su elaboración, bajo criterios estrictos: preguntas precisas, verificables y que no puedan resolverse con una simple búsqueda en internet. Los organizadores del Humanity’s Last Exam descartaron cualquier cuestión que pudiera encontrarse fácilmente en la red o que los modelos respondieran correctamente en fases previas. De unas 70.000 propuestas iniciales, solo 13.000 superaron el filtro automático al poner en aprietos a los sistemas de IA. Tras una revisión adicional por parte de especialistas, el número se redujo a 2.500 preguntas de nivel equivalente a doctorado, abarcando desde mitología griega hasta problemas avanzados de física sobre fuerzas y movimiento en sistemas ideales. En el lanzamiento de la prueba, OpenAI situó a su modelo o1 en primer lugar con apenas un 8,3% de aciertos. Los investigadores ya preveían que, al ritmo de avance actual, los modelos podrían superar el 50% antes de finalizar 2025, una predicción que no resultaba descabellada. Al 12 de febrero de 2026, la mejor puntuación corresponde a Gemini 3 Deep Think, con un 48,4%. Esta cifra contrasta con el rendimiento de los expertos humanos, que ronda el 90% en sus respectivas áreas. Así, la inteligencia artificial se posiciona en un punto intermedio: competente, pero aún lejos del dominio experto. Los autores del estudio advierten sobre los límites de esta métrica: “Una alta precisión en HLE demostraría un desempeño de nivel experto en preguntas cerradas y verificables y conocimiento científico avanzado, pero no implica por sí sola capacidades de investigación autónoma ni inteligencia artificial general”, señalan en el artículo, sugiriendo que la llegada de la AGI aún está distante. Fuente: elconfidencial.com

Gialoma

Desafío al Último Examen de la Humanidad: ChatGPT, Gemini, Claude y DeepSeek revelan el futuro tecnológico

Paloma Firgaira

Artículos Recientes

Alerta de privacidad: Chrome instala Gemini Nano en tu PC sin consentimiento

El vértigo peligroso frente al abismo de la inteligencia artificial

Antonio Díaz (Evoluciona): "La IA tiene raíces desde 2002, la generativa es solo la evolución actual"

Categorías Populares

🍪 Experiencia Mejorada