Prenez contact avec nous

Plan du cours

Infrastructure as Code pour EXO

  • Vue d'ensemble des modèles de déploiement EXO : nœud unique, multi-nœuds et clusters RDMA.
  • Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de la configuration.
  • Utilisation de Nix flakes pour des builds EXO reproductibles et des environnements de développement.
  • Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement sans surveillance des clusters.

Builds reproductibles et intégration CI

  • Épingler les dépendances et construire le tableau de bord dans les pipelines CI.
  • Exécuter des tests de fumée EXO dans les runners GitHub Actions ou GitLab CI.
  • Créer des images de référence et des workflows de retour arrière basés sur des instantanés pour les machines virtuelles macOS et Linux.
  • Versionner les fiches de modèles personnalisés alongside du code de l'application.

Découverte des clusters et automatisation du réseau

  • Configuration de mDNS et de DNS statique pour une découverte fiable des nœuds libp2p.
  • Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sous macOS.
  • Utilisation de namespaces personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters de dev, de staging et de prod.
  • Règles de pare-feu et segmentation réseau pour les environnements multi-locataires.

Gestion du stockage et du cycle de vie des modèles

  • Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS.
  • Montage de partages NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide.
  • Nettoyage des caches périmés et politiques de rétention des poids versionnés.
  • Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives.

Surveillance et alertes

  • Acheminement des logs EXO vers une journalisation centralisée (ELK, Loki ou Splunk).
  • Création de tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED.
  • Alertes sur les changements de membres du cluster, les événements OOM et les pics de latence d'inférence.
  • Corrélation de la télémétique matériel macmon avec les régressions de performance des modèles.

Mises à jour, retour arrière et reprise après sinistre

  • Préparer les mises à jour des binaires EXO sur un nœud canari avant le déploiement à grande échelle.
  • Retour arrière au niveau des modèles : basculer entre des versions quantifiées sans retéléchargement.
  • Sauvegarder et restaurer l'état du cluster, les namespaces personnalisés et les poids en cache.
  • Documenter les playbooks de reprise pour les scénarios de reconstruction totale du cluster.

  • Application du TLS au niveau du proxy inverse (nginx, traefik) pour le tableau de bord et l'API.
  • Mise en œuvre de la limitation de débit API et du whitelisting des adresses IP pour les points de terminaison EXO.
  • Isolation des clusters avec des VLAN et des politiques de réseau zero-trust.
  • Audit de l'accès et maintien d'un inventaire des modèles déployés et de leurs versions.

Pré requis

  • Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
  • Connaissance de l'administration système et de la gestion des packages sous macOS ou Linux
  • Compréhension des concepts de réseau, de DNS et de stockage

Audience

  • Ingénieurs DevOps
  • Architectes infrastructure
  • SRE responsables des charges de travail IA sur site
 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires