Microsoft lance MAI-Thinking-1, son premier modèle IA pour le raisonnement
À l’occasion de la conférence Build 2026, Microsoft a annoncé l’arrivée de nouveaux modèles IA développés en interne et directement accessibles via Microsoft Foundry et Azure Speech. Cette nouvelle génération de modèles s’attaque à quatre cas d’usages : le texte, l’image, la voix et la transcription.
Les modèles MAI pour Microsoft AI sont conçus directement par Microsoft, sans OpenAI. C’est une précision importante qui marque une certaine rupture vis-à-vis de l’entreprise dirigée par Sam Altman.
Sommaire
Raisonnement avec MAI-Thinking-1
Pour le traitement logique et la production de textes, Microsoft introduit MAI-Thinking-1, son tout premier LLM dédié au raisonnement. En effet, pour l’instant la famille MAI était constituée uniquement de 4 modèles dédiés à la création d’images et à la partie audio (disponibles dans Foundry depuis avril). Dans la continuité de ce que j’indiquais précédemment, sachez que ce modèle a été entraîné de zéro sur des données propres, sans s’appuyer sur l’entraînement d’un modèle tiers.
Positionné comme un modèle de taille intermédiaire, il s’appuie sur une architecture de type Mixture-of-Experts (MoE, ou mélange d’experts) qui n’active sélectivement que les portions du modèle nécessaires à chaque requête. L’objectif : accroître les capacités globales du modèle sans faire exploser les besoins en puissance de calcul. D’une certaine façon, cette architecture rend le modèle plus efficient.
“MAI-Thinking-1 est particulièrement adapté aux cas d’utilisation en entreprise qui nécessitent souvent une compréhension approfondie du contexte : analyse de longs documents, raisonnements complexes en plusieurs étapes et traitement de traces d’agents étendues sans fragmentation ni recollage.”, précise Microsoft.
Comment se positionne ce modèle vis-à-vis de la concurrence ? Je pense notamment à Claude Opus en posant cette question.
Microsoft en parle. Il est indiqué que MAI-Thinking-1 est égal à Claude Opus 4.6 sur le benchmark SWE-Bench Pro, avec une différence notable pour les consommateurs : le coût serait nettement inférieur. Il est donc moins performant que GPT-5.5, Claude Opus 4.8, et Gemini 3.5-flash. Toutefois, selon le scénario d’utilisation, il peut y avoir des variations.
Ce modèle est actuellement disponible en préversion privée (accessible sur demande via ce formulaire).
Création d’images avec MAI-Image-2.5
Microsoft a également dévoilé une famille de modèles destinés à la création d’images et à l’édition d’images (image-to-image). Il y a d’une part la version standard et d’autre part la version MAI-Image-2.5-Flash, plus rapide et adaptée à la production en masse.
La firme de Redmond insiste sur l’intégration d’un ensemble d’outils de contrôle, notamment pour conserver une cohérence entre les images générées ou éditées :
- Cohérence de l’identité et des personnages : conservation des visages, des cheveux, des vêtements et de l’identité corporelle globale à travers différents styles ou poses.
- Contrôle du style et de la scène : possibilité d’appliquer un restylage complet (effet anime, étalonnage des couleurs, grain de pellicule, rajeunissement) ou de réorganiser les plans (ajout, suppression ou déplacement d’objets, ajustement des poses humaines).
- Contrôle du texte, des graphismes et de la mise en page : génération de typographies et de logos, modifications textuelles à partir de requêtes naturelles ou création d’infographies prêtes pour PowerPoint.

Voici les tarifs pour ces deux modèles disponibles via Microsoft Foundry :
| Modèle | Entrée texte (par million de tokens) | Entrée image (par million de tokens) | Sortie image (par million de tokens) |
| MAI-Image-2.5 | 5,00 $ | 8,00 $ | 47,00 $ |
| MAI-Image-2.5 Flash | 1,75 $ | 1,75 $ | 33,00 $ |
Clonage de voix et transcription avec les modèles MAI
Enfin, le dernier volet auquel s’attaque Microsoft, c’est l’audio. Lors de l’événement Build 2026, deux modèles ont été dévoilés pour répondre aux besoins en matière de synthèse vocale et de transcription audio.
- MAI-Voice-2
Ce modèle de synthèse vocale (text-to-speech) multilingue supporte 15 langues et il est capable de recréer l’identité vocale unique d’une personne spécifique. Pour cela, il utilise un court échantillon audio de référence pour capturer instantanément les caractéristiques de la voix (ton, émotion, accent, rythme, etc.).
Une version MAI-Voice-2 Flash, plus rapide, arrivera par la suite.
- MAI-Transcribe-1.5
Ce modèle de reconnaissance vocale (speech-to-text) prend en charge un total de 43 langues. Il a été conçu de façon à être capable d’être précis malgré la présence de bruit de fond, de discussions croisées ou encore pour l’analyse de réunions longue durée. Il est aussi personnalisable de façon à reconnaître les noms propres, les noms de marques ou encore un vocabulaire technique spécifique.
Sur le benchmark multilingue standard FLEURS (portant sur 25 langues), son taux d’erreur par mot s’améliore en passant de 3,9 % à 3,7 % (en comparaison de MAI-Transcribe-1), consolidant sa première place mondiale. En effet, d’après Microsoft, ce modèle se classe premier sur 11 langues clés et surclasse Whisper-large-v3.
Voici les tarifs de ces deux modèles accessibles via Azure Speech :
| Modèle | Tarif |
| MAI-Voice-2 | 22,00 $ par million de caractères |
| MAI-Transcribe-1.5 | À partir de 0,36 $ par heure |
Finalement, Microsoft semble bien décidé à créer un écosystème complet de modèles IA développés en interne, et donc sans dépendre de technologies tierces. Ce sera intéressant de suivre l’évolution de ces modèles, notamment en comparaison de la concurrence, dans les prochains mois.