Hubungi Kami

Kerangka Materi

Infrastruktur sebagai Kode untuk EXO

  • Tinjauan pola penyiapan EXO: klaster satu-node, multi-node, dan klaster RDMA
  • Mengotomasi instalasi dependensi (Xcode, uv, Node.js, Rust) dengan manajemen konfigurasi
  • Menggunakan Nix flakes untuk membangun EXO dan lingkungan pengembang yang dapat direproduksi
  • Menulis playbooks Ansible atau skrip shell untuk penyiapan klaster tanpa pengawasan

Bangun yang Dapat Direproduksi dan Integrasi CI

  • Menyetem dependensi dan membangun dasbor di dalam pipeline CI
  • Menjalankan uji merokok EXO di runner GitHub Actions atau GitLab CI
  • Membuat citra dasar dan alur rollback berbasis snapshot untuk VM macOS dan Linux
  • Meneruskan versi kartu model kustom bersama kode aplikasi

Penemuan Klaster dan Otomasi Jaringan

  • Konfigurasi mDNS dan DNS statis untuk penemuan node libp2p yang andal
  • Mengotomasi pembuatan profil jaringan dan manajemen jembatan Thunderbolt di macOS
  • Menggunakan namespace khusus (EXO_LIBP2P_NAMESPACE) untuk memisahkan klaster dev, staging, dan prod
  • Aturan firewall dan segmentasi jaringan untuk lingkungan multi-penyewa

Pengelolaan Siklus Hidup Model dan Penyimpanan

  • Merancang strategi EXO_MODELS_DIRS dan EXO_MODELS_READ_ONLY_DIRS
  • Me-mount share NFS atau SAN sebagai repositori model read-only untuk penyiapan cepat
  • Penghapusan cache usang dan kebijakan retensi bobot terverifikasi versinya
  • Mengotomasi unduhan awal model dan pemeriksaan kesehatan sebelum pemutakhiran bergulir

Pemantauan dan Peringatan

  • Mengirim log EXO ke logging terpusat (ELK, Loki, atau Splunk)
  • Membuat dasbor Grafana dari output EXO_TRACING_ENABLED
  • Memberikan peringatan untuk perubahan keanggotaan klaster, peristiwa OOM, dan lonjakan latensi inference
  • Mengkorelasikan telemetri perangkat keras macmon dengan regresi kinerja model

Pemutakhiran, Rollback, dan Pemulihan Bencana

  • Menyiapkan pemutakhiran biner EXO di node kanari sebelum penyebaran ke seluruh klaster
  • Rollback tingkat model: beralih antara versi terkuantisasi tanpa mengunduh ulang
  • Mencadangkan dan memulihkan keadaan klaster, namespace kustom, dan bobot yang di-cache
  • Mendokumentasikan runbook pemulihan untuk skenario rebuild klaster total

Pengerasan Keamanan dan Kepatuhan

  • Menerapkan TLS di lapisan proxy terbalik (nginx, traefik) untuk dasbor dan API
  • Mengimplementasikan pembatasan laju API dan daftar putih IP untuk endpoint EXO
  • Mengisolasi klaster dengan VLAN dan kebijakan jaringan zero-trust
  • Memeriksa akses dan mempertahankan inventaris model yang diimplementasikan beserta versinya

Persyaratan

  • Pengalaman dengan praktik DevOps (CI/CD, IaC, orkestrasi kontainer)
  • Kepandaian dengan administrasi sistem macOS atau Linux dan manajemen paket
  • Pemahaman tentang konsep jaringan, DNS, dan penyimpanan

Siapa yang Harus Mengikuti

  • Insinyur DevOps
  • Arsitek infrastruktur
  • SRE yang bertanggung jawab atas beban kerja AI on-premise
 21 Jam

Jumlah Peserta


Harga per Peserta

Testimoni (2)

Kursus Mendatang

Kategori Terkait