Terima kasih telah mengirimkan pertanyaan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Terima kasih telah mengirimkan pemesanan Anda! Salah satu anggota tim kami akan segera menghubungi Anda.
Kerangka Materi
Kedaulatan AI dan Penyebaran LLM Lokal
- Risiko LLM berbasis cloud: penyimpanan data, pelatihan berdasarkan input, yurisdiksi luar negeri.
- Arsitektur Ollama: server model, registri, dan API yang kompatibel dengan OpenAI.
- Perbandingan dengan vLLM, llama.cpp, dan Text Generation Inference.
- Lisensi model: ketentuan untuk Llama, Mistral, Qwen, dan Gemma.
Instalasi dan Setup Perangkat Keras
- Menginstal Ollama di Linux dengan dukungan CUDA dan ROCm.
- Fallback CPU-only dan optimisasi AVX/AVX2.
- Penyebaran Docker dan pemetaan volume persisten.
- Setup multi-GPU dan strategi alokasi VRAM.
Manajemen Model
- Mengunduh model dari registri Ollama: ollama pull llama3.
- Mengimpor model GGUF dari HuggingFace dan TheBloke.
- Tingkat kuantisasi: tradeoff antara Q4_K_M, Q5_K_M, dan Q8_0.
- Beralih model dan batasan pemuatan model bersamaan.
Modelfile Kustom
- Menulis sintaksis Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Penyetelan suhu, top_p, dan repeat_penalty.
- Rekayasa instruksi sistem untuk perilaku sesuai peran.
- Membuat dan mempublikasikan model kustom ke registri lokal.
Integrasi API
- Endpoint /v1/chat/completions yang kompatibel dengan OpenAI.
- Respon streaming dan mode JSON.
- Integrasi dengan LangChain, LlamaIndex, dan aplikasi kustom.
- Autentikasi dan batas laju dengan reverse proxy.
Optimisasi Performa
- Penentuan ukuran jendela konteks dan manajemen cache KV.
- Inferensi batch dan penanganan permintaan paralel.
- Alokasi thread CPU dan kesadaran NUMA.
- Memantau utilisasi GPU dan tekanan memori.
Keamanan dan Kepatuhan
- Isolasi jaringan untuk endpoint penyajian model.
- Pipeline filter input dan moderasi output.
- Pencatatan audit instruksi dan hasil generate.
- Jejak model dan verifikasi hash.
Persyaratan
- Administrasi Linux dan kontainer tingkat menengah.
- Pemahaman dasar tentang model pembelajaran mesin dan transformer.
- Pengenalan terhadap REST API dan JSON.
Audience
- Insinyur AI dan pengembang yang mengganti API LLM berbasis cloud.
- Organisasi dengan kepekaan data yang mencegah penggunaan model cloud.
- Tim pemerintahan dan pertahanan yang memerlukan model bahasa terisolasi.
14 Jam