Prenez contact avec nous

Plan du cours

Infrastructure as Code pour EXO

  • Aperçu des modèles de déploiement EXO : nœud unique, multi-nœuds et clusters RDMA
  • Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de configuration
  • Utilisation des flakes Nix pour des builds reproductibles d'EXO et des environnements de développement
  • Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement non assisté du cluster

Builds reproductibles et intégration CI

  • Épinglage des dépendances et build du tableau de bord dans les pipelines CI
  • Exécution des tests de fumée EXO dans les exécuteurs GitHub Actions ou GitLab CI
  • Création d'images de référence et de workflows de retour arrière basés sur des instantanés pour les VM macOS et Linux
  • Versionnement des cartes de modèles personnalisés alongside le code applicatif

Découverte du cluster et automatisation de la réseautique

  • Configuration de mDNS et DNS statique pour une découverte fiable des nœuds libp2p
  • Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sur macOS
  • Utilisation de noms de domaine personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters de dev, staging et prod
  • Règles de pare-feu et segmentation réseau pour les environnements multi-locataires

Gestion du stockage et du cycle de vie des modèles

  • Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS
  • Montage de parts NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide
  • Nettoyage des caches obsolètes et politiques de rétention des poids versionnés
  • Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives

Surveillance et alertes

  • Envoi des journaux EXO vers une journalisation centralisée (ELK, Loki ou Splunk)
  • Construction de tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED
  • Alertes sur les changements d'appartenance au cluster, les événements OOM et les pics de latence d'inférence
  • Corrélation de la télémétrie matériel macmon avec les régressions de performance des modèles

Mise à jour, retour arrière et reprise après sinistre

  • Préparation des mises à jour des binaires EXO sur un nœud canari avant le déploiement à l'échelle du parc
  • Retour arrière au niveau des modèles : passage entre les versions quantifiées sans re-téléchargement
  • Sauvegarde et restauration de l'état du cluster, des noms de domaine personnalisés et des poids en cache
  • Documentation des manuels de récupération pour les scénarios de reconstruction totale du cluster

  • Application de TLS à la couche de proxy inverse (nginx, traefik) pour le tableau de bord et l'API
  • Mise en œuvre de la limitation de débit API et de l'approbation des adresses IP pour les points de terminaison EXO
  • Isolation des clusters avec des VLAN et des politiques de réseau zero-trust
  • Audit des accès et maintenance d'un inventaire des modèles déployés et de leurs versions

Pré requis

  • Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
  • Familiarité avec l'administration système macOS ou Linux et la gestion des paquets
  • Compréhension des concepts de réseautique, DNS et stockage

Audience

  • Ingénieurs DevOps
  • Architectes d'infrastructure
  • SRE responsables des charges de travail d'IA sur site
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires