Selon les informations rapportes par The Information et relayes par Wccftech, xAI rencontrerait actuellement un srieux problme dexploitation de son infrastructure GPU. La socit dElon Musk disposerait dun parc denviron 550 000 GPU NVIDIA, principalement des H100 et H200, dploys notamment au sein de ses clusters de Memphis et de Colossus. Mais malgr cette force de frappe colossale sur le papier, xAI nexploiterait rellement quenviron 11 % de cette capacit.
En clair, cela reviendrait utiliser efficacement lquivalent denviron 60 000 GPU, alors que plus dun demi-million de cartes seraient installes dans les serveurs de lentreprise. Le problme ne viendrait donc pas du matriel en lui-mme, mais plutt de la capacit faire travailler tout ce petit monde de faon coordonne et efficace.
Le logiciel, vrai goulet dtranglement de lIA trs grande chelle
Le souci viendrait principalement de la pile logicielle et de loptimisation du rseau dentranement distribu. petite ou moyenne chelle, avec quelques milliers de GPU, les pertes defficacit peuvent rester acceptables. Mais lorsque lon parle de centaines de milliers de GPU, le moindre temps mort se transforme rapidement en gouffre de performance. Les GPU peuvent alors attendre des donnes, patienter entre deux tapes de calcul ou subir des ralentissements dans les pipelines danalyse.
Ce problme ne serait pas propre xAI. Lexploitation efficace de trs grands clusters IA resterait un dfi majeur pour toute lindustrie. Toutefois, certaines entreprises sembleraient mieux sen sortir. Meta atteindrait ainsi environ 43 % dutilisation de son parc GPU, tandis que Google monterait 46 %. Des chiffres trs suprieurs ceux attribus xAI, mme sils montrent aussi quune norme partie de la capacit installe reste difficile exploiter en continu.
xAI viserait dsormais les 50 % dutilisation
Toujours selon ces informations, xAI chercherait amliorer fortement son taux dutilisation, avec un objectif qui serait fix autour de 50 %. Pour y parvenir, lentreprise devrait travailler sur son infrastructure, son rseau, ses outils logiciels et ses mthodes dentranement. Aucun calendrier prcis ne serait toutefois avanc pour le moment.
Cette situation rappelle surtout une chose : acheter des GPU par centaines de milliers ne suffit pas. Dans lIA moderne, le nerf de la guerre nest pas seulement la puissance brute, mais aussi la capacit lorchestrer correctement. Et ce petit jeu, la pile logicielle, les interconnexions, le stockage, les flux de donnes et loptimisation des workloads peuvent faire toute la diffrence.
plus long terme, xAI pourrait aussi chercher mieux rentabiliser son parc en proposant une partie de ses capacits en location, ou en basculant certains futurs workloads vers de nouvelles architectures. Elon Musk travaillerait galement sur le projet TeraFab et sur des puces maison destines ses diffrentes activits. Mais pour linstant, si ces chiffres se confirment, xAI aurait surtout un immense chantier devant elle : faire travailler efficacement les GPU quelle possde dj.
