Hubungi Kami

Kerangka Materi

Dasar-dasar Produksi Tencent Hunyuan

  • Ikhtisar skenario penyajian model Tencent Hunyuan
  • Karakteristik produksi model besar dan MoE
  • Hambatan umum terkait latensi, throughput, dan biaya
  • Menetapkan tujuan tingkat layanan (SLO) untuk beban kerja inferensi

Arsitektur Pen-deployan dan Alur Penyajian

  • Komponen inti dari tumpukan inferensi produksi
  • Memilih antara model pen-deployan berbasis kontainer, on-premise, dan cloud
  • Dasar-dasar pemuatan model, perutean permintaan, dan alokasi GPU
  • Merancang untuk keandalan dan kesederhanaan operasional

Optimasi Latensi dalam Praktik

  • Menggunakan mesin inferensi yang dioptimalkan seperti TensorRT jika memungkinkan
  • Konsep KV-cache dan penyesuaian cache praktis
  • Mengurangi overhead startup, pemanasan, dan respons
  • Mengukur waktu hingga token pertama dan kecepatan generasi token

Throughput, Pengelompokan (Batching), dan Efisiensi GPU

  • Strategi pengelompokan berkelanjutan dan pengelompokan permintaan
  • Mengelola konkurensi dan perilaku antrian
  • Meningkatkan utilisasi GPU tanpa mengganggu pengalaman pengguna
  • Menangani permintaan konteks panjang dan beban kerja campuran

Kuantisasi dan Pengendalian Biaya

  • Mengapa kuantisasi penting untuk penyajian produksi
  • Pertukaran praktis dari FP16, INT8, dan opsi presisi umum lainnya
  • Menyeimbangkan kualitas model, latensi, dan biaya infrastruktur
  • Membuat daftar periksa optimasi biaya sederhana

Operasi, Pemantauan, dan Tinjauan Kesiapan

  • Pemicu autoscaling untuk layanan inferensi
  • Memantau latensi, throughput, penggunaan cache, dan kesehatan GPU
  • Dasar-dasar pencatatan (logging), peringatan, dan respons insiden
  • Meninjau pen-deployan referensi dan membuat rencana perbaikan

Persyaratan

  • Pemahaman dasar mengenai pen-deployan model bahasa besar dan alur kerja inferensi
  • Pengalaman dengan kontainer, infrastruktur cloud atau on-premise, serta layanan berbasis API
  • Pengetahuan praktis tentang Python atau tugas teknik sistem

Target Peserta

  • Insinyur ML yang men-deploy LLM ke produksi
  • Insinyur platform yang bertanggung jawab atas layanan inferensi berbasis GPU
  • Arsitek solusi yang merancang platform penyajian AI yang dapat diskalakan
 14 Jam

Jumlah Peserta


Harga per Peserta

Kursus Mendatang

Kategori Terkait