Kerangka Materi

Pendahuluan Penggandaan Skala Ollama

  • Arsitektur Ollama dan pertimbangan penggandaan skala
  • Bottleneck umum dalam penempatan multi-pengguna
  • Praktik terbaik untuk siap infrastruktur

Alokasi Sumber Daya dan Optimasi GPU

  • Strategi pemakaian CPU/GPU yang efisien
  • Pertimbangan memori dan bandwidth
  • Batasan sumber daya tingkat container

Penempatan dengan Containers dan Kubernetes

  • Memcontainerisasi Ollama dengan Docker
  • Menjalankan Ollama dalam kluster Kubernetes
  • Pengatur beban dan penemuan layanan

Penggandaan Skala Otomatis dan Batching

  • Merancang kebijakan penggandaan skala otomatis untuk Ollama
  • Teknik inferensi batch untuk optimasi throughput
  • Kompromi antara latensi dan throughput

Optimasi Latensi

  • Memperfilkan kinerja inferensi
  • Strategi caching dan pemanasan model
  • Mengurangi overhead I/O dan komunikasi

Monitoring dan Keterlihatan

  • Mengintegrasikan Prometheus untuk metrik
  • Membangun dashboard dengan Grafana
  • Pemberitahuan dan tanggap insiden untuk infrastruktur Ollama

Pengelolaan Biaya dan Strategi Penggandaan Skala

  • Alokasi GPU yang mempertimbangkan biaya
  • Pertimbangan penempatan di cloud vs. on-prem
  • Strategi untuk penggandaan skala berkelanjutan

Ringkasan dan Langkah Selanjutnya

Persyaratan

  • Pengalaman dalam pengelolaan sistem Linux
  • Pengertian tentang containerisasi dan orchestration
  • Kenalan dengan deployment model pemasaran

Audience

  • Engineer DevOps
  • Tim infrastruktur ML
  • Engineer kehandalan situs
 21 Jam

Jumlah Peserta


Biaya per Peserta

Kursus Mendatang

Kategori Terkait