Prenez contact avec nous

Plan du cours

Introduction à EXO et au clustering d'IA local

  • Aperçu du framework EXO et de l'écosystème exo-explore
  • Comparaison entre l'inférence cloud centralisée et l'inférence locale distribuée
  • Architecture : découverte d'appareils libp2p, backend MLX, tableau de bord et couches API
  • Exigences matérielles : Apple Silicon (M3 Ultra, M4 Pro/Max), Thunderbolt 5, stockage partagé

Installation d'EXO sur macOS

  • Configuration de Xcode, de la chaîne d'outils Metal et des prérequis macOS
  • Installation de uv, Node.js et de la chaîne d'outils Rust nightly
  • Installation de la fourche macmon pour la surveillance d'Apple Silicon
  • Clonage du dépôt et construction du tableau de bord avec npm
  • Lancement d'EXO à partir des sources et vérification du tableau de bord sur localhost:52415

Installation d'EXO sur Linux

  • Installation des dépendances via apt ou Homebrew sur Linux
  • Configuration de uv, Node.js 18+ et Rust nightly
  • Construction du tableau de bord et lancement d'EXO en mode CPU uniquement
  • Arborescence des répertoires : chemins XDG Base Directory pour la config, les données, le cache et les logs

Découverte automatique des appareils et formation du cluster

  • Compréhension de la découverte automatique basée sur libp2p à travers les réseaux locaux
  • Configuration d'espaces de noms personnalisés avec EXO_LIBP2P_NAMESPACE pour l'isolation du cluster
  • Vérification de l'appartenance des nœuds dans la vue cluster du tableau de bord
  • Gestion des échecs de découverte et des problèmes de segmentation réseau

Activation du RDMA sur Thunderbolt 5

  • Architecture RDMA et affirmation d'une réduction de 99 % de la latence
  • Activation du RDMA en mode récupération macOS avec rdma_ctl
  • Exigences de câblage et contraintes de topologie des ports sur Mac Studio
  • Correspondance des versions macOS sur tous les nœuds du cluster
  • Dépannage de la découverte RDMA et de la configuration DHCP

Déploiement de modèles de pointe

  • Utilisation du tableau de bord pour charger et shardier les modèles DeepSeek v3.1, Qwen3-235B et la famille Llama
  • Aperçu des emplacements d'instances avec le point de terminaison API /instance/previews
  • Création d'instances de modèles avec un sharding par pipeline ou par tenseur
  • Configuration de cartes de modèle personnalisées depuis le hub HuggingFace

Surveillance et dépannage

  • Lecture des journaux EXO et compréhension de la traçabilité distribuée
  • Interprétation de la santé du cluster dans la vue cluster du tableau de bord
  • Diagnostic des échecs des nœuds de travail et du comportement de reconnexion
  • Utilisation de EXO_TRACING_ENABLED pour l'analyse des goulets d'étranglement de performance

Maintenance et mises à jour du cluster

  • Mise à jour des binaires EXO et procédures de reconstruction du tableau de bord
  • Migration des caches de modèles et gestion des modèles pré-téléchargés via NFS
  • Retrait gracieux des nœuds et rééquilibrage des charges de travail

Pré requis

  • Une compréhension des fondamentaux du réseautique (IP, sous-réseautage, pare-feu)
  • De l'expérience avec l'administration en ligne de commande sur macOS ou Linux
  • Une familiarité avec la gestion des packages Python (pip/uv) et les outils Node.js

Audience

  • Administrateurs système
  • Ingénieurs DevOps
  • Architectes d'infrastructure IA responsables du déploiement de LLM sur site
 21 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires