Microsoft presenta i suoi primi modelli di IA per la trascrizione e la generazione di voce propri.
    Inteligencia Artificial (IA)

    Microsoft presenta i suoi primi modelli di IA per la trascrizione e la generazione di voce propri.

    Gianro Compagno
    2026-04-04
    5 min read
    Microsoft avanza nell'IA con nuovi modelli di voce e trascrizione integrati in Copilot e Azure Microsoft ha fatto un passo significativo nello sviluppo dell'intelligenza artificiale lanciando i suoi primi modelli proprietari focalizzati sulla generazione e trascrizione vocale, già disponibili in servizi come Copilot e Azure Speech. Questa iniziativa rientra in una strategia a lungo termine che mira, entro il 2027, a posizionare l'azienda all'avanguardia dei modelli di IA più avanzati del settore. In accesso anticipato pubblico, Microsoft ha presentato tre modelli chiave: MAI-Image-2, un generatore di immagini fotorealistiche a partire da testo; MAI-Voice-1, un generatore di voce ultrarapido; e MAI-Transcribe-1, un sistema di trascrizione ad alta precisione. MAI-Image-2, lanciato a marzo, si distingue per la sua capacità di creare immagini professionali, mentre MAI-Voice-1 e MAI-Transcribe-1 segnano l'inizio di una piattaforma integrata di IA audio orientata agli sviluppatori. MAI-Transcribe-1 supporta 25 lingue e, secondo Microsoft, riduce il costo della GPU del 50% rispetto ad altre alternative, facilitando trascrizioni e sottotitoli in tempo reale per eventi, assistenti virtuali, call center e ambienti educativi. Da parte sua, MAI-Voice-1 può generare fino a 60 secondi di audio in meno di un secondo utilizzando una sola GPU, consentendo esperienze vocali espressive in funzioni di Copilot, come audio e podcast. Questi modelli sono già integrati in servizi come Copilot, Bing, PowerPoint e Azure Speech, e sono disponibili per gli sviluppatori in Playground e Foundry. L'impegno di Microsoft nello sviluppo interno mira a competere direttamente con leader del settore come OpenAI e Anthropic. Mustafa Suleyman, CEO di Microsoft AI, ha dichiarato a Bloomberg che l'obiettivo è raggiungere il confine tecnologico assoluto in modelli capaci di generare testo, immagini e audio entro il 2027. Fonte: businessinsider.es
    Gianro Compagno

    Gianro Compagno

    CTO

    Gianro aporta una gran experiencia en gestión de proyectos tecnológicos en entornos multinacionales. Su experiencia técnica combinada con un MBA y una maestría en Psicología Investigativa crea un enfoque único para las soluciones tecnológicas. Como Experto en IA y Automatización, aplica conocimientos psicológicos para diseñar sistemas más intuitivos y centrados en el ser humano. Su enfoque orientado al detalle y mentalidad positiva aseguran que nuestras soluciones no solo sean innovadoras y confiables, sino que también se alineen con cómo las personas piensan y trabajan naturalmente.