Inteligencia Artificial (IA)
Microsoft presenta sus primeros modelos de IA para transcripción y generación de voz propios
Gianro Compagno
2026-04-04
5 min read
Microsoft avanza en IA con nuevos modelos de voz y transcripción integrados en Copilot y Azure
Microsoft ha dado un paso relevante en el desarrollo de inteligencia artificial al lanzar sus primeros modelos propios enfocados en la generación y transcripción de voz, ya disponibles en servicios como Copilot y Azure Speech. Esta iniciativa se enmarca en una estrategia a largo plazo que busca, para 2027, posicionar a la compañía en la vanguardia de los modelos de IA más avanzados del sector.
En acceso anticipado público, Microsoft ha presentado tres modelos clave: MAI-Image-2, un generador de imágenes fotorrealistas a partir de texto; MAI-Voice-1, un generador de voz ultrarrápido; y MAI-Transcribe-1, un sistema de transcripción de alta precisión. MAI-Image-2, lanzado en marzo, destaca por su capacidad para crear imágenes profesionales, mientras que MAI-Voice-1 y MAI-Transcribe-1 marcan el inicio de una plataforma integral de IA de audio orientada a desarrolladores.
MAI-Transcribe-1 soporta 25 idiomas y, según Microsoft, reduce el coste de GPU en un 50% respecto a otras alternativas, facilitando transcripciones y subtítulos en tiempo real para eventos, asistentes virtuales, centros de llamadas y entornos educativos. Por su parte, MAI-Voice-1 puede generar hasta 60 segundos de audio en menos de un segundo utilizando una sola GPU, lo que permite experiencias de voz expresivas en funciones de Copilot, como audio y pódcast.
Estos modelos ya están integrados en servicios como Copilot, Bing, PowerPoint y Azure Speech, y están disponibles para desarrolladores en Playground y Foundry. La apuesta de Microsoft por el desarrollo propio busca competir directamente con líderes del sector como OpenAI y Anthropic. Mustafa Suleyman, CEO de Microsoft AI, declaró a Bloomberg que el objetivo es alcanzar la frontera tecnológica absoluta en modelos capaces de generar texto, imágenes y audio para 2027.
Fuente: businessinsider.es