Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Infrastructure as Code pour EXO
- Aperçu des modèles de déploiement EXO : nœud unique, multi-nœuds et clusters RDMA
- Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de configuration
- Utilisation des flakes Nix pour des builds reproductibles d'EXO et des environnements de développement
- Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement non assisté du cluster
Builds reproductibles et intégration CI
- Épinglage des dépendances et build du tableau de bord dans les pipelines CI
- Exécution des tests de fumée EXO dans les exécuteurs GitHub Actions ou GitLab CI
- Création d'images de référence et de workflows de retour arrière basés sur des instantanés pour les VM macOS et Linux
- Versionnement des cartes de modèles personnalisés alongside le code applicatif
Découverte du cluster et automatisation de la réseautique
- Configuration de mDNS et DNS statique pour une découverte fiable des nœuds libp2p
- Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sur macOS
- Utilisation de noms de domaine personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters de dev, staging et prod
- Règles de pare-feu et segmentation réseau pour les environnements multi-locataires
Gestion du stockage et du cycle de vie des modèles
- Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS
- Montage de parts NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide
- Nettoyage des caches obsolètes et politiques de rétention des poids versionnés
- Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives
Surveillance et alertes
- Envoi des journaux EXO vers une journalisation centralisée (ELK, Loki ou Splunk)
- Construction de tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED
- Alertes sur les changements d'appartenance au cluster, les événements OOM et les pics de latence d'inférence
- Corrélation de la télémétrie matériel macmon avec les régressions de performance des modèles
Mise à jour, retour arrière et reprise après sinistre
- Préparation des mises à jour des binaires EXO sur un nœud canari avant le déploiement à l'échelle du parc
- Retour arrière au niveau des modèles : passage entre les versions quantifiées sans re-téléchargement
- Sauvegarde et restauration de l'état du cluster, des noms de domaine personnalisés et des poids en cache
- Documentation des manuels de récupération pour les scénarios de reconstruction totale du cluster
- Application de TLS à la couche de proxy inverse (nginx, traefik) pour le tableau de bord et l'API
- Mise en œuvre de la limitation de débit API et de l'approbation des adresses IP pour les points de terminaison EXO
- Isolation des clusters avec des VLAN et des politiques de réseau zero-trust
- Audit des accès et maintenance d'un inventaire des modèles déployés et de leurs versions
Pré requis
- Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
- Familiarité avec l'administration système macOS ou Linux et la gestion des paquets
- Compréhension des concepts de réseautique, DNS et stockage
Audience
- Ingénieurs DevOps
- Architectes d'infrastructure
- SRE responsables des charges de travail d'IA sur site
21 Heures
Nos clients témoignent (2)
Craig était très impliqué dans la formation, toujours en s'assurant que nous prêtions attention, en adaptant les exemples à nos activités quotidiennes et en fournissant une réponse chaque fois qu'on lui posait une question, même si l'information n'était pas incluse dans la présentation.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Formation - DevOps Foundation®
Traduction automatique
Niveau élevé d’engagement et de connaissances du formateur
Jacek - Softsystem
Formation - DevOps Engineering Foundation (DOEF)®
Traduction automatique