12 NOV 202414:00 – 17:00 (CET)Zoom MeetingLimité à 50 places
À propos de cet événement
Cet atelier hautement technique s'adresse aux ingénieurs ML, data scientists et DevOps souhaitant passer de la phase d'expérimentation à la mise en production de grands modèles de langage (LLM). Nous aborderons les stratégies d'optimisation (quantization, distillation, ONNX), les architectures d'inférence (vLLM, TGI, Triton), la gestion des coûts et la supervision en production, via des exercices pratiques sur des cas réels.
Objectifs
Maîtriser les techniques de quantization et fine-tuning
Déployer un LLM via vLLM ou Text Generation Inference
Optimiser les coûts d'inférence en production
Mettre en place un système de monitoring robuste
Programme
14:00
Introduction & rappels architecturaux LLM
14:45
Optimisation : quantization 4-bit & GPTQ
15:30
Démo live : déploiement avec vLLM
16:15
Monitoring & alertes en production
16:50
Q&R & cas pratiques
Inscription
Participer à cet événement
12 NOV 2024
14:00 – 17:00 (CET)
Zoom Meeting
Limité à 50 places
Réservé aux membres SAIEN. Rejoindre

