Microsoft presenta sus primeros modelos de IA para transcripción y generación de voz propios
    Inteligencia Artificial (IA)

    Microsoft presenta sus primeros modelos de IA para transcripción y generación de voz propios

    Gianro Compagno
    2026-04-04
    5 min read
    Microsoft avanza en IA con nuevos modelos de voz y transcripción integrados en Copilot y Azure Microsoft ha dado un paso relevante en el desarrollo de inteligencia artificial al lanzar sus primeros modelos propios enfocados en la generación y transcripción de voz, ya disponibles en servicios como Copilot y Azure Speech. Esta iniciativa se enmarca en una estrategia a largo plazo que busca, para 2027, posicionar a la compañía en la vanguardia de los modelos de IA más avanzados del sector. En acceso anticipado público, Microsoft ha presentado tres modelos clave: MAI-Image-2, un generador de imágenes fotorrealistas a partir de texto; MAI-Voice-1, un generador de voz ultrarrápido; y MAI-Transcribe-1, un sistema de transcripción de alta precisión. MAI-Image-2, lanzado en marzo, destaca por su capacidad para crear imágenes profesionales, mientras que MAI-Voice-1 y MAI-Transcribe-1 marcan el inicio de una plataforma integral de IA de audio orientada a desarrolladores. MAI-Transcribe-1 soporta 25 idiomas y, según Microsoft, reduce el coste de GPU en un 50% respecto a otras alternativas, facilitando transcripciones y subtítulos en tiempo real para eventos, asistentes virtuales, centros de llamadas y entornos educativos. Por su parte, MAI-Voice-1 puede generar hasta 60 segundos de audio en menos de un segundo utilizando una sola GPU, lo que permite experiencias de voz expresivas en funciones de Copilot, como audio y pódcast. Estos modelos ya están integrados en servicios como Copilot, Bing, PowerPoint y Azure Speech, y están disponibles para desarrolladores en Playground y Foundry. La apuesta de Microsoft por el desarrollo propio busca competir directamente con líderes del sector como OpenAI y Anthropic. Mustafa Suleyman, CEO de Microsoft AI, declaró a Bloomberg que el objetivo es alcanzar la frontera tecnológica absoluta en modelos capaces de generar texto, imágenes y audio para 2027. Fuente: businessinsider.es
    Gianro Compagno

    Gianro Compagno

    CTO

    Gianro aporta una gran experiencia en gestión de proyectos tecnológicos en entornos multinacionales. Su experiencia técnica combinada con un MBA y una maestría en Psicología Investigativa crea un enfoque único para las soluciones tecnológicas. Como Experto en IA y Automatización, aplica conocimientos psicológicos para diseñar sistemas más intuitivos y centrados en el ser humano. Su enfoque orientado al detalle y mentalidad positiva aseguran que nuestras soluciones no solo sean innovadoras y confiables, sino que también se alineen con cómo las personas piensan y trabajan naturalmente.